2025.12.09
Qlean Dataset、「日本語・1話者・歴史テーマトーク音声コーパスデータセット」を提供開始
〜GENIAC採択企業のVisual Bank、歴史領域の日本語モノローグ音声でASR・NLP・生成AI基盤の高度化を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・歴史テーマトーク音声コーパスデータセット』の提供を開始しました。本データセットは、日本史・世界史・文化史などの歴史分野を題材とした一人語りの音声を収録しており、音声認識(ASR)、自然言語処理(NLP)、生成AI基盤モデルの学習・評価に活用できます。
本データセットは、20代〜50代の男女話者による長尺の日本語独り語り音声を収録した音声コーパスです。台本に依存しない自然な語り口を特徴とし、文脈依存の説明・話題転換・エピソード紹介を含む発話構造を保持しています。収録は44.1kHzのmp3形式で実施し、約5分〜40分の多様な音源を計約150時間収録しました。これにより、文脈理解・要約・意味推定など、音声起点の高度な言語処理に求められるデータとして利用できます。
歴史領域の専門的な語りを含むデータであるため、長文の音声入力処理、内容理解を伴うASR評価、生成AIモデルの日本語能力向上など、多様な研究・開発用途で活用できます。自然環境下の話題展開を含む実音声で構成されているため、汎化性能の検証、業務利用を想定した対話システム・教育支援AIなど、目的に応じた幅広いモデル開発に利用可能です。
今回提供を開始する「日本語・1話者・歴史テーマトーク音声コーパスデータセット」の概要
概略 | 日本史・世界史・文化史など歴史分野の話題を扱う一人語り音声を収録したデータセット |
データ種別 | 音声 |
被写体属性 | 20代〜50代の男女 |
データ形式 | mp3 |
収録時間 | 計約150時間(1音声約5分〜40分) |
音声レート | 44.1kHz |
対象のシーン | ・話者が歴史のテーマについて連続的に説明・解説するシーン |
サンプル詳細 |
「日本語・1話者・歴史テーマトーク音声コーパスデータセット」のユースケースイメージ
【研究用途(アカデミア)】
長文音声認識モデルの学習・評価
歴史分野の専門語彙を含む文脈依存独り語り音声により、長尺音声入力に対する認識精度の評価や誤り傾向の分析に活用できます。
日本語NLP研究(要約・固有表現抽出・談話解析)
一人語りの説明構造や話題転換を含むデータにより、要約生成、談話構造解析、固有表現抽出などの日本語言語処理研究に利用できます。
生成AI基盤における音声→テキスト→意味理解の研究
連続的な語りを含むため、音声入力からテキスト化し、内容理解・生成を行うマルチステップ型AIモデルの研究に適しています。
【産業用途(企業)】
音声認識エンジン(ASR)の日本語精度向上
専門語彙を含む独り語り音声により、教育・コンテンツ・知識領域の音声認識モデルの性能強化に利用できます。
対話生成AI・音声チャットボットの知識領域強化
歴史領域の説明構造を含むため、長文回答や説明生成を行うチャットボットや音声対話AIの学習素材として活用できます。
音声入力型LLM・マルチモーダルAIの評価データ
文脈理解が必要な長尺音声により、音声→テキスト→推論の一連の処理精度を検証できます。
【その他実需要(教育・社会実装)】
教育支援AIにおける説明生成モデルの開発
歴史領域の説明音声を学習素材とすることで、教育向けAI教材の説明生成・要約生成の品質向上に活用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
日本語音声コーパス
音声データセット





