2026.02.20
Qlean Dataset、「日本語・1話者・講談の音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、伝統話芸領域の音声・テキストデータで音声・言語系AI研究を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、ASR(自動音声認識)、音声理解、音声言語モデルなどの音声・言語系AI開発および研究用途に向けた「日本語・1話者・講談の音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、日本の伝統話芸である講談の語りを対象に、1名の話者が物語を語る音声と、その発話内容を忠実に書き起こした日本語トランスクリプトで構成されています。講談特有の抑揚、間、語りの速度変化を含む自然発話が連続的に収録されており、読み上げ音声や対話音声とは異なる、日本語の物語的発話構造を含んだデータとなっています。
語りは物語の進行に応じて情景説明、登場人物の語り分け、緊張感の演出などが含まれるため、音声信号とテキスト表現の対応関係を検証する用途において、単調な発話データでは得られない検証環境を提供します。長尺から短尺まで多様な語り構成を含むことで、連続音声における文脈保持やセグメンテーションを伴う研究にも利用できます。
Qlean Datasetでは、生成AI基盤モデル開発を含む研究・商用AI開発の現場で求められるデータ要件を踏まえ、権利処理および利用条件を整理した上で、本データセットを提供しています。Visual Bankは今後も、音声・言語領域における多様な日本語データの整備を通じて、AI開発および研究の基盤形成を支援していきます。
今回提供を開始する「日本語・1話者・講談の音声コーパスとトランスクリプト」の概要
データ種別 | 音声、テキスト |
|---|---|
被写体属性 | 日本人 |
データ形式 | 音声データ:mp3 |
収録時間 | 1音声30秒〜45分 |
音声レート | 44.1kHz / 48kHz |
対象のシーン | ・講談特有の語り口で物語を語る音声シーン |
サンプル詳細 |
「日本語・1話者・講談の音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途】
日本語音声認識モデルにおける自然発話精度検証
ASRモデルの研究において、講談の語りに含まれる抑揚や間を伴う連続音声を用い、読み上げ音声とは異なる自然発話条件下での認識精度や誤認識傾向を検証する用途に利用できます。音声と言語表現の対応関係に関する研究
音声信号と書き起こしテキストを組み合わせ、日本語における語り表現の構造や韻律情報が言語理解に与える影響を分析する研究用途に利用できます。
【産業用途】
音声入力型AIにおける長尺音声処理の検証
音声検索や音声アーカイブ解析を行うAIプロダクト開発において、長時間の一人語り音声を用いた音声分割、全文書き起こし、要約処理などの機能検証に利用できます。日本語音声言語モデルの事前学習・評価
日本語特有の語り口や物語構造を含む音声・テキストデータとして、音声言語モデルの事前学習や評価フェーズにおける補助データとして利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
トランスクリプト
テキストデータセット
日本語音声コーパス
音声データセット





