2026.02.12
Qlean Dataset、「日本語・1話者・ビジネス・自己啓発・趣味実用テーマの朗読音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、知識理解・言語表現を伴う音声×テキストデータでLLM/音声言語AI開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、ASR(自動音声認識)、音声理解、NLP(自然言語処理)、LLM(大規模言語モデル)などのAI開発・研究用途に向けた「日本語・1話者・ビジネス・自己啓発・趣味実用テーマの朗読音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、ビジネス、自己啓発、趣味・実用分野に関する文章を題材に、日本人の話者が一人で朗読した日本語音声と、その発話内容を文字起こししたトランスクリプトで構成されています。業務解説や考え方の整理、手順説明など、知識や概念を言語化する文脈を含む文章が多く収録されており、単なる読み上げ音声ではなく、内容理解を前提とした発話が含まれています。
朗読形式であることから、話者の発話が安定した構成となっており、音声とテキストの対応関係を明確に捉えやすい点も本データセットの構成要素の一つです。長文構造や論理的な文章展開を含む音声が収録されているため、短文中心の音声データでは扱いにくい、文脈理解や情報整理を伴う音声処理の検証にも利用できます。
各音声データには対応するトランスクリプトが付与されており、音声認識精度の評価に加え、音声入力を起点とした意味理解、要約、応答生成など、音声と言語を横断したAIモデルの学習・検証を想定しています。特定の話者による一貫した発話データであることから、話者依存性を排したモデル挙動の確認や、音声表現と文章構造の関係性を分析する用途にも適しています。
本データセットは、Qlean Datasetが提供するオリジナルデータラインナップ「AIデータレシピ」の一つとして提供されており、研究用途から商用AI開発までを見据えた権利処理が行われています。Visual Bankは、GENIAC採択企業として、実務文脈に即した日本語音声・テキストデータの提供を通じ、AI開発現場における基盤モデルの学習および実装フェーズを支援してまいります。
今回提供を開始する「日本語・1話者・ビジネス・自己啓発・趣味実用テーマの朗読音声コーパスとトランスクリプト」の概要
データ種別 | 音声、テキスト |
|---|---|
被写体属性 | 日本人 |
データ形式 | 音声データ:mp3 |
収録時間 | 1音声30秒〜160分 |
音声レート | 44.1kHz / 48kHz |
対象のシーン | ・ビジネス書や自己啓発書、実用書の文章を一人の話者が朗読するシーン |
サンプル詳細 |
「日本語・1話者・ビジネス・自己啓発・趣味実用テーマの朗読音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途】
音声入力を伴う日本語言語理解モデルの検証
日本語音声を入力とし、内容理解や要約、質問応答を行う音声言語モデルにおいて、ビジネス文書や実用文書を題材とした理解精度や推論挙動の検証に利用できます。音声とテキストの対応関係に基づくマルチモーダル研究
同一内容の音声とトランスクリプトを用い、音声表現と文章構造の対応関係や、音声情報が言語理解に与える影響を分析する研究に利用できます。
【産業用途】
音声対応型業務支援AIの基盤モデル検証
音声入力によって業務知識や手順説明を理解・処理するAIプロダクトにおいて、ビジネス・実用分野の日本語音声を用いた認識・理解性能の評価に利用できます。音声入力を前提としたLLMファインチューニング
音声から得られた日本語テキストを起点とするLLMに対し、説明文や論理展開を含むデータを用いて、要約生成や回答生成の品質検証に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
テキストデータセット
トランスクリプト
音声データセット





