2026.01.09

Qlean Dataset、「日本語・2話者・教育テーマトーク音声コーパスとトランスクリプト」を提供開始

〜GENIAC採択企業のVisual Bank、教育精度・進路相談・学習環境を巡る対話音声データでASR/NLP/LLM開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、ASR(自動音声認識)、NLP(自然言語処理)、LLMなどの音声・言語系AI開発に向けた「日本語・2話者・教育テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。

本データセットは、教育制度や進路相談、学習環境と個人の意思決定が交差するテーマなどについて、2名の話者が対話形式で意見や考えを交わす日本語音声と、その発話内容を書き起こしたトランスクリプトを組み合わせたものです。

収録にあたっては台本に依存せず、質問と応答、具体的な体験の共有、考えの整理といったやり取りが自然な流れで進行する対話構造を前提としています。2話者による発話の切り替わりや相互参照を含む音声とテキストが対応付けられており、単発発話では捉えにくい文脈理解や対話構造を伴う検証に利用できる構成としています。

Qlean Datasetは、研究用途から商用開発までを見据え、権利処理や利用条件を整理した形でAI開発用データを提供しており、本データセットもその一環として、教育・進路・学習といった領域に関する日本語対話データを必要とする研究者・開発者の検証環境整備を目的に提供されます。

今回提供を開始する「日本語・2話者・教育テーマトーク音声コーパスとトランスクリプト」の概要

データ種別

音声、テキスト

被写体属性

20代〜50代の男女

データ形式

音声データ:wav /mp3
テキストデータ:txt

収録時間

計約900時間(1音声約5分〜60分)

音声レート

44.1kHz

対象のシーン

・教育や学習、進路に関するテーマについて、2名が対話する日本語音声
・教員免許、将来設計、受験、教育方針、SNSなどの話題を含む日常会話

サンプル詳細

https://qleandataset.visual-bank.co.jp/lineup/pn-016

「日本語・2話者・教育テーマトーク音声コーパスとトランスクリプト」のユースケースイメージ

 【研究用途】 

  • 対話音声を用いたASRモデルの評価・分析
    教育や進路に関する対話音声を用い、話者交替や相互応答を含む条件下での日本語音声認識精度や誤認識傾向の分析に利用できます。

  • 教育・進路テーマにおける対話理解研究
    進路選択や学習方針に関する対話トランスクリプトを用いて、話題遷移や意見形成の流れを対象とした対話理解・文脈解析手法の研究に利用できます。

 【産業用途】 

  • 教育・進路相談を想定した対話AIの検証
    進路や学習に関する相談シーンを想定し、対話型AIやチャットボットにおける意図理解や応答設計の検証用データとして利用できます。

  • LLMの日本語対話評価・事前検証
    教育や学習を巡る価値観・判断を含む対話テキストを用いて、LLMの日本語対話処理能力や文脈保持性能を評価する用途に利用できます。

 【その他実需要】 

  • 教育・学習相談サービスにおける対話品質検証
    進路選択や受験、子育て方針などの話題を含む対話音声を用い、教育・学習相談サービスにおける対話の自然さや応答の流れを検証するための参考データとして利用できます。

  • 教育関連サポート窓口における音声認識検証
    教育分野特有の語彙や話題を含む対話音声を用いて、問い合わせ対応や相談窓口を想定した音声認識・書き起こし精度の検証に利用できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。

▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

Qlean Datasetの特長

  • すべての被写体から同意取得

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データ構築にも対応

▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/

  • 日本語音声コーパス

  • 音声データセット

  • テキストデータセット

  • トランスクリプト

株式会社アマナイメージズ

Visual Bank株式会社


© amanaimages inc.