2025.11.26

Qlean Dataset、「日本語・1話者・独り語りの音声コーパスデータセット」を提供開始

〜GENIAC採択企業のVisual Bank、日本語音声モデルの基盤データを提供〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・独り語りの音声コーパスデータセット』の提供を開始しました。

本データセットは、日本語話者による独り語り(モノローグ)形式の自然発話を収録した音声コーパスであり、個人の経験・興味・ライフストーリーに基づく自由語りで構成されています。48kHz / 16-bitの高品質WAV形式で提供し、自然なイントネーションやプロソディ(声の強弱・リズム・高さの変化)を含むため、音声認識(ASR)、話者特徴抽出、音声生成(TTS)、要約モデル、自然言語処理(NLP)、および生成AI・マルチモーダルAI(音声LLM等)の音声入力処理に活用できます。

自然環境下で収録された単独話者の長尺音声は、AIモデルの汎化性能検証や実環境での音声理解技術の評価に適しており、大学・研究機関における日本語音声研究、企業における対話システムやコールセンターオペレーションの高度化、教育・社会福祉領域における音声理解AIの開発など、幅広い領域で利用可能です。

今回提供を開始する「日本語・1話者・独り語りの音声コーパスデータセット」の概要

被写体属性

日本人の30代〜60代の男女や子供

データ形式

wav

収録時間

1音声約15分

対象のシーン

自身の経験や興味のあることを語っているシーン

音声レート

48kHz / 16-bit

サンプルデータ

https://qleandataset.visual-bank.co.jp/lineup/pn-031

「日本語・1話者・独り語りの音声コーパスデータセット」のユースケースイメージ

【研究用途(アカデミア)】

  • 音声認識(ASR)モデルの精度向上

    単一話者による長尺の自然発話を用いて、語尾変化・句読点の揺れ・話題転換を含むASRモデルの学習・評価に活用できます。研究用ASRベースラインの評価にも適しています。

  • 話者認識・音響特徴量分析

    多年代の日本語話者による自然発話を収録しており、声紋特徴量の抽出、クラスタリング、年齢推定などの音声科学研究に利用できます。

【産業用途(企業)】

  • 音声アプリケーションの性能改善

    ボイスUI・音声検索・スマートデバイスなど、単独話者ベースの認識が中心となるアプリケーションにおいて、長文認識の精度向上に寄与します。

  • 生成AI・マルチモーダルAIにおける音声入力精度向上

    本データセットは、日本語話者による自由語り(Narrative)形式の長尺かつ文脈依存の自然発話を収録しており、音声 → テキスト → 意味理解(Embedding生成)を行うマルチモーダルAIの前処理精度向上に適しています。

    音声質問応答、対話生成、要約生成、音声LLMなど、音声入力を前提とした生成AIモデルの性能改善に活用できます。

  • ロボティクス・対話エージェントの自然対話モデル

    長尺の個人語りに対する文脈保持モデルの評価に利用でき、介護支援ロボット、受付AI、家庭用ロボットなどの自然対話性能の向上に寄与します。

【その他実需要(教育・社会実装)】

  • 教育支援AI・日本語学習支援

    多様な年代の話し方・語彙選択・文脈展開を含むため、日本語教育、スピーチ教育、発音指導AIなどの教材データとして使用できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

Qlean Datasetの特長 

  • すべての被写体から同意取得・国際法規(GDPR/CCPA)準拠 

  • 既存データは最短1日で納品可能 

  • カスタム撮影・収録・収集による独自データ構築にも対応

▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/

  • 音声データセット

株式会社アマナイメージズ

Visual Bank株式会社


© amanaimages inc.