2026.05.19

Qlean Dataset、方言音声データセット「日本語・地域方言対話音声」を提供開始

〜大阪弁・広島弁の自然対話音声を収録した商用利用対応コーパス。ASRロバスト性検証・方言適応LLM・TTSファインチューニングに活用可能。GENIAC採択企業のVisual Bankが提供〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本語・地域方言対話音声データセット」の提供を開始します。

■ 方言音声データセットとは 

方言音声データセットとは、標準語コーパスではカバーできない地域固有の音声パターン・アクセント・語彙を含む音声コーパスです。ASRモデルの方言汎化性能検証、LLMの方言理解向上、地域特化TTSモデルの構築を目的とした機械学習データとして活用されます。カスタム収録・追加方言への対応も可能です。

■ 今回提供を開始する「日本語・地域方言対話音声データセット」の概要 

大阪弁・広島弁を話す日本人男女による自然発話の2話者対話音声を収録。台本読み上げではなく自発的発話のため、方言特有のイントネーション・文末表現・語彙など実環境に近い音声的特徴を含みます。性別ラベル付きの話者情報により、属性別の音響モデル評価や多話者モデルの適応実験にも対応します。

データ種別

音声(2話者対話形式)

被写物属性

各地の日本人(性別ラベル付き)

データ形式

mp3 / wav

音声レート

 44.1kHz・48kHz / 16・24bit

方言種類

大阪弁、広島弁 など

利用用途

商用利用可能

サンプルデータはこちら:https://qleandataset.visual-bank.co.jp/lineup/ds-098

■ よくある質問(FAQ) 

Q. 方言音声データセットはどんなASR開発に使えますか? 
A. Whisper・ESPnetなど標準語ベースで学習済みのASRモデルに対し、大阪弁・広島弁音声でWERを測定するロバスト性ベンチマーク、およびLoRAやfull fine-tuningによる方言適応に利用できます。

Q. LLM開発での活用シーンは? 
A. 方言特有の文末詞・助詞・イントネーションを含む対話テキストを用いて、方言→標準語スタイル変換モデルの学習や、コンテキスト依存の意味解釈タスクの評価データとして利用できます。

Q. TTS(音声合成)への活用は可能ですか?? 
A. 大阪弁・広島弁の自然なプロソディを持つ音声データとして、VITS・StyleTTSなどへのファインチューニングに活用可能です。地域密着型ガイドロボットや対話エージェントの音声生成に実装できます。

Q. 大阪弁・広島弁以外の方言追加収録は対応していますか?
A. 特定地域・年齢層・シチュエーション限定の対話収集など、開発要件に応じたカスタムデータ収集に対応しています。

■ 「日本語・地域方言対話音声データセット」のユースケースイメージ

  •  ASRモデルのロバスト性ベンチマーク(大阪弁・広島弁音声データ) 
    標準語コーパスで学習したモデルが方言音声に対してどの程度の認識精度を維持できるかをWER・CERで定量評価。方言ASRの性能ギャップ計測に使用できます。

  •  方言適応ファインチューニング 
    少量の方言音声データでASRモデルにドメイン適応をかけるfew-shot・LoRAファインチューニング用データとして活用。標準語コーパスとの混合比調整による汎化性能検証にも有効です。

  • LLMの方言理解・スタイル変換 
    方言テキストを用いた感情分析・方言→標準語変換・談話構造解析など、LLMの方言理解精度向上のための学習・評価データとして利用できます。

  • 地域特化TTS(大阪弁・広島弁 音声合成)の構築 
    自然なイントネーションとリズムを持つ方言音声データをTTSモデルにファインチューニングし、地域密着型サービスや対話キャラクターの音声生成エンジンを構築できます。

  • コンタクトセンター向けドメイン適応STT 

    方言語彙が頻出する業務環境でのカスタム言語モデル構築や、Google STT・Amazon Transcribeのカスタムボキャブラリーと組み合わせた地域最適化STTエンジンの開発に活用できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する権利クリア・商用利用可能なAI学習用データソリューションです。
音声・画像・動画・3D・テキストなど多様な形式に対応し、基盤モデル開発者をはじめとするAI開発者が、法的リスクなく高品質なデータを調達・活用できる環境を提供しています。
国内外のデータホルダーや、ラジオ・新聞社・通信社等のメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加中です。既存データは最短2営業日で納品し、その他カスタム収録・収集にも対応しています。
Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

お問い合わせ

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL:https://amanaimages.com/about/

  • 日本語音声コーパス

株式会社アマナイメージズ

Visual Bank株式会社


© amanaimages inc.