2026.01.21
Qlean Dataset、「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、エンタメ文脈の自然対話データでASR・対話AI・LLM開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」において、ASR(自動音声認識)、NLP(自然言語処理)、LLMなどの音声・言語系AI開発に向けた「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』に新たに加わるもので、テレビドラマやバラエティ番組、映画作品といった映像コンテンツを題材に、日本人の男女2名が対話形式で語り合う日本語音声と、その発話内容を忠実に書き起こしたトランスクリプトを収録しています。作品の内容や印象、登場人物への評価などを起点に意見を交わす会話が中心となっており、共通のコンテンツ体験を前提とした自然な対話が展開されます。
収録は台本による制御を行わず、話者同士が自由なテンポで感想や考察を共有する形式を採用しています。意見の一致や相違に対する反応、補足説明、話題の展開といったやり取りが含まれており、相づちや話者交替、話題転換を伴う実際の会話構造を反映した音声データとして構成されています。
今回提供を開始する「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の概要
データ種別 | 音声、テキスト | |
|---|---|---|
被写体属性 | 日本人、20代〜50代の男女 | |
データ形式 | 音声データ: mp3 / wav | |
収録時間 | 計約220時間(1音声約5分〜60分) | |
音声レート | 44.1kHz / 48kHz | |
対象のシーン | ・2名がテレビ番組やドラマ作品、映画作品について意見交換するシーン | ・台本のない自然な会話シーン |
サンプル詳細 |
「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途(アカデミア)】
対話音声認識モデルの精度評価
日本語ASR研究において、自然対話中の発話重なりや相づちを含む音声を用いた認識精度の比較検証に利用できます。特に、独話データでは評価しにくい対話特有の誤認識傾向の分析に適しています。対話構造を考慮した日本語言語モデル研究
テレビ・映画という共通知識を前提にした対話テキストを用い、話題展開や応答関係を考慮した言語モデルの挙動分析や評価に利用できます。
【産業用途(企業)】
対話型AI・チャットボットの会話理解検証
エンターテインメント領域の話題を含む自然対話データを用い、ユーザー同士の会話を想定した対話AIの理解性能や応答生成の検証に利用できます。音声入力型アプリケーションの実運用テスト
複数話者が自由に会話する音声を用いることで、音声入力を前提としたサービスやアプリケーションにおけるASR処理の挙動確認や改善検討に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
トランスクリプト
テキストデータセット
日本語音声コーパス
音声データセット





