2026.03.03

Qlean Dataset、「日本語・1話者・教育・語学テーマの朗読音声コーパスとトランスクリプト」を提供開始

〜GENIAC採択企業のVisual Bank、教育・語学領域の音声・テキストデータでASR/NLP/LLM開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset」において、ASR(自動音声認識)、NLP(自然言語処理)、LLM(大規模言語モデル)などの音声・言語系AI開発に用いられる「日本語・1話者・教育・語学テーマの朗読音声コーパスとトランスクリプト」の提供を開始しました。

本データセットは、教育や語学に関する説明文や教材文を、日本人話者が内容の正確性と明瞭さを意識して朗読した日本語音声と、その発話内容に対応するトランスクリプトで構成されています。1名の話者による連続した読み上げ形式で収録しているため、発音や話速のばらつきが抑えられ、文脈の流れが一貫した音声データとなっています。あわせて、教育・学習分野で実際に用いられる語彙や説明表現を含む構成としています。
音声とテキストは対応関係を整理した形で提供されるため、発話単位でのアライメント確認や文字起こし精度の検証に利用できます。また、定義や例示を多く含む説明的な文体であることから、朗読音声を対象とした認識精度評価に加え、教育ドメインにおける言語モデルの適応度検証にも活用できます。
Qlean Datasetでは、研究用途に限らず、商用利用を前提としたAI開発プロジェクトにも対応しています。権利関係を整理したデータとして提供することで、検証段階から実装フェーズまで継続的に活用できる環境を整えています。

今回提供を開始する「日本語・1話者・教育・語学テーマの朗読音声コーパスとトランスクリプト」の概要

データ種別

音声、テキスト

被写体属性

日本人

データ形式

音声データ:mp3、
テキストデータ:txt,csv,json

収録時間

1音声30秒〜60分

音声レート

44.1kHz / 48kHz

対象のシーン

・教育・学習・語学に関する説明文や教材文を朗読するシーン
・情報を正確に伝えることを意識した読み上げシーン

サンプル詳細

https://qleandataset.visual-bank.co.jp/lineup/pn-041

「日本語・1話者・教育・語学テーマの朗読音声コーパスとトランスクリプト」のユースケースイメージ

【研究用途】

  • 教育ドメインにおけるASRモデルの精度評価研究
    教育・語学テーマの朗読音声を用い、説明文読解型の発話に対する自動音声認識モデルの単語誤り率や文単位認識精度を評価する研究に利用できます。一般会話コーパスとの比較により、文体差による認識性能の変動を検証する用途に適しています。

  • 教育テキストを対象としたLLMのドメイン適応研究
    対応するトランスクリプトを活用し、教育・学習文脈に特化したテキストで言語モデルの追加学習や評価を行うことで、定義説明や段階的解説文に対する生成品質や要約性能を検証する研究に利用できます。

【産業用途】

  • 教育コンテンツ向け音声認識エンジンの開発
    eラーニングやオンライン講義の自動文字起こし機能において、朗読形式の説明音声を想定した音声認識モデルの学習・評価データとして利用できます。教材読み上げ音声に対する字幕生成機能の精度改善に活用できます。

  • 語学学習アプリにおける読み上げ評価機能の高度化
    標準的な朗読音声と対応テキストを参照データとして使用し、学習者の音読音声との比較評価モデルを開発する用途に利用できます。発音や抑揚の差分分析を行う評価アルゴリズムの検証データとして活用できます。

【その他実需要】

  • アクセシビリティ対応音声生成の品質検証
    教育文書を対象とした音声合成システムの出力と、本データセットの朗読音声を比較することで、公共情報読み上げ用途における自然性や明瞭性の評価データとして利用できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。

▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

Qlean Datasetの特長

  • すべての被写体から同意取得

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データ構築にも対応

▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/

  • トランスクリプト

  • テキストデータセット

  • 日本語音声コーパス

  • 音声データセット

株式会社アマナイメージズ

Visual Bank株式会社


© amanaimages inc.