2026.01.28
Qlean Dataset、「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、音楽分野の音声・テキストデータでASR/NLP/LLM開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、ASR(自動音声認識)、NLP(自然言語処理)、LLM(大規模言語モデル)などの音声・言語系AI開発に向けた「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』に新たに加わるもので、音楽やアーティスト、楽曲、音楽体験などをテーマに、日本人の話者が一人語り形式で語る日本語音声と、その発話内容を忠実に書き起こしたトランスクリプトを収録しています。作品やアーティストへの考察、音楽にまつわる体験談、ジャンルや時代背景に関する解説など、音楽領域に即した話題が連続的な発話として展開されます。
収録は台本による厳密な制御を行わず、話者が自身の言葉で内容を整理しながら語る形式を前提としています。対話ではなく一話者によるまとまった発話構造となっているため、説明的な語りや文脈の持続、語彙の使われ方を含めた音声・テキストデータとして、音声認識や言語理解、長めの入力を前提とした処理系AIの研究・開発用途での利用を想定しています。
Qlean Datasetでは、研究用途から商用開発までを見据え、権利処理や利用条件を整理したAI開発用データを提供しています。本データセットもその一環として、音楽領域に関連する日本語音声・テキストデータを用いた検証環境の整備を目的に提供されます。
今回から提供を開始する「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」の概要
データ種別 | 音声、テキスト |
|---|---|
被写体属性 | 日本人、20代〜50代の男女 |
データ形式 | 音声データ:mp3,wav |
収録時間 | 計約210時間(1音声約5分〜60分) |
音声レート | 44.1kHz / 48kHz |
対象のシーン | 話者が音楽や音楽に関連するテーマについて連続的に説明・解説するシーン |
サンプル詳細 |
「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途(アカデミア)】
ドメイン固有語彙を含む日本語音声認識モデルの検証
音楽・漫画・映画などのカルチャー領域に関する固有名詞や作品名を含む一話者の連続発話音声を用い、ASRモデルが説明的・評価的な語りをどの程度安定して認識できるかを検証する研究に利用できます。
【産業用途】
レビュー・解説型音声コンテンツを想定した言語理解モデルの評価
作品レビューやアーティスト解説など、個人の視点で語られる音声コンテンツを前提に、音声認識後のテキスト理解、要点抽出、要約生成など、NLP/LLM機能の検証に利用できます。音声入力型レコメンド・検索機能の検証
発話内に含まれる作品名や人物名、評価表現をもとに、関連コンテンツの抽出や分類を行う音声入力型検索・推薦機能の検証データとして利用できます。
【その他実需要】
カルチャー系音声コンテンツの字幕生成・要約検証
映画・漫画・音楽に関する解説音声を想定し、字幕生成や概要文生成など、教育・情報提供用途の音声処理機能の検証に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
トランスクリプト
テキストデータセット
音声データセット
日本語音声コーパス





