Qlean Dataset、「日本語・1話者・地域の方言の独り語り音声データ」を提供開始

2025.12.18

〜GENIAC採択企業のVisual Bank、地域方言音声コーパスでASR・音声言語モデル開発を支援〜

Visual Bank株式会社（東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」）は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset（キュリンデータセット）』において、『日本語・1話者・地域の方言の独り語り音声コーパス』の提供を開始しました。

本データセットは、日本各地の方言話者が一人で語る日本語音声を収録したもので、Qlean Datasetが展開する機械学習用データセットラインナップ「AIデータレシピ」の一つとして新たに追加されました。音声認識（ASR）や音声言語モデル、音声系生成AIなど、日本語音声を扱うAIの研究・開発において、方言を含む音声入力の評価や検証に活用できます。

収録されている音声は、関西弁、岡山弁、伊予弁、土佐弁など、地域ごとの言語的特徴を持つ方言を含み、話者は日本人の20代〜60代の男女です。日常的な話題や自身の考えについて一人で語る音声を中心に構成されており、台本をベースとしながらも、自然な発話リズムや間、地域特有の言い回しを含む点が特長です。

また、本データセットは研究・検証用途での利用を想定した音声データとして提供するとともに、開発目的や要件に応じて、音声データの設計や新規収録にも対応いたします。標準語中心の音声データでは捉えにくい、日本語音声の地域差や話者条件を学習・評価に取り込むことで、実運用を想定した音声認識精度の検証や、用途別の音声モデル開発に役立ちます。

今回提供を開始する「日本語・1話者・地域の方言の独り語り音声コーパス」の概要

データ種別	音声
被写体属性	日本人の20代〜60代男女
データ形式	mp3 / wav
収録時間	計数百時間（1音声約10分程度）
音声レート	44.1kHz,48kHz/16,24bit
方言種類	関西弁、岡山弁、伊予弁、土佐弁など　※随時拡充
対象シーン	・話者が自身の考えや日常的な話題について、一人で語っている音声・台本に基づきつつも、自然な発話リズム・間・言い回しを含む構成
サンプル詳細	https://qleandataset.visual-bank.co.jp/lineup/ds-099

「日本語・1話者・地域の方言の独り語り音声コーパス」のユースケースイメージ

【研究用途】

日本語音声認識における方言対応研究
地域ごとの方言音声を用いることで、標準語中心の学習データでは捉えにくい音韻差や発話傾向を含めた音声認識モデルの評価が可能です。方言や話者条件を指定した音声を用いることで、地域差が認識精度に与える影響やモデル挙動の比較検証にも活用できます。
音声言語モデルの汎化性能評価
単一話者による比較的長時間の発話音声を用い、方言を含む音声入力に対する音声言語モデルの汎化性能や条件別の挙動を評価できます。
方言音声合成における韻律・イントネーション分析
方言特有の抑揚やリズム、文末イントネーションを含む音声を用いて、音声合成モデルにおける韻律表現の学習や生成音声の自然性評価に利用できます。

【産業用途】

方言対応型音声認識システムの開発
コールセンターや音声入力UI、業務支援システムなどにおいて、地域話者を想定した音声認識モデルの学習・検証に活用できます。利用環境に即した条件設定により、実運用を想定した精度検証が可能です。
日本語音声モデルの用途別データ設計
標準語に加えて方言音声を取り入れることで、日本語音声モデルの対応範囲拡大や条件別の性能評価に活用できます。用途に応じて話者数や発話パターンを整理した音声データ設計にも対応します。
方言音声を用いた音声合成・対話AIの検証
方言話者による独り語り音声を基に、音声合成モデルや対話AIにおける音声出力の自然性やイントネーション制御の検証に利用できます。

【その他実需要】

音声処理・音声AI教育向け教材
方言を含む実音声データとして、音声認識、音声合成、音声言語モデルを学ぶ教育・演習用途に利用できます。地域差や話者条件を踏まえた教材設計にも活用可能です。

『Qlean Dataset（キュリンデータセット）』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。

▶ Qlean Datasetサイト：https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ：https://qleandataset.visual-bank.co.jp/lineup

Qlean Datasetの特長

すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応

▶ お問い合わせ：https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい！」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset（キュリンデータセット）』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO：永井真之
所在地：〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL：https://visual-bank.co.jp/
アマナイメージズ企業URL：　https://amanaimages.com/about/

音声データセット
日本語音声コーパス

お知らせ一覧に戻る

この記事のお問い合わせはこちら