ニュース / News

ニュースリリース

WebクロールとWebアーカイブに基づく大規模音声・音響データセットの一般公開

 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 (NIIエヌアイアイ、所長:黒橋くろはし 禎夫さだお、東京都千代田区)の大規模言語モデル研究開発センター(LLMC)は、主宰する LLM 勉強会(LLM-jp)の対話WGの活動の成果として、Web上のオープンなデータソースから構築した2つの大規模音声音響データセット(CC Audio および Archive.org Audio Dataset)を一般公開しました。対話WGは、NII/LLMC科学主幹の東中竜一郎教授が主担当を務め、早稲田大学の小川哲司教授、慶應義塾大学の高道慎之介准教授との緊密な連携のもと推進される研究グループです。
 これらのデータセットは、大規模ウェブクロールデータセット「Common Crawl」と世界最大級のデジタルライブラリ「Archive.org」から得られた音声音響データへのURLリストと、これらのデータに対するメタデータ(言語種別や音声・音響の種類等)からなります。2つのデータセットを合わせることで、日本語だけで48,000時間を超える音声リソースへのアクセスが可能となります。大規模な日本語の音声モデルの構築に有用であるだけでなく、多様な音響・音声を含むため、多様な音声のモデリングにも活用いただけます。
 これまで公開されている日本語音声データとしては、69,000時間規模のJ-CHATが最大のものとして知られており、LLM-jp-Moshiといった研究成果もこのデータに支えられて実現されました。今回公開するデータは約48,000時間規模であり、J-CHATに次ぐ国内最大級の日本語音声・音響データセットとなります。本データはLLM-jp-Moshi1の改善に利用されます。
 日本語音声・音響分野では大規模なオープンリソースが依然として不足しており、その確保に困難を抱えている研究者は少なくありません。本データセットはWeb上の音声コンテンツから日本語を抽出・選別し、内容の確認・検証を経て整備したものです。大規模データのキュレーションと公開が研究コミュニティの発展に寄与することを期待しています。
 LLMC では、本データセットの公開を通じて、次世代の音声生成AIおよび音声認識AIの研究開発を加速させ、学術研究およびAI開発の共通基盤となる大規模なデータインデックスと収集ツール群の整備を進めていきます。

1. 今回公開した2つのデータセット概要

大規模ウェブクロールデータセット「Common Crawl」から抽出された音声URL・メタデータを含むCC Audioと世界最大級のデジタルライブラリ「Archive.org」から抽出された音声URL・メタデータを含むArchive.org Audio Datasetがあります。また、それぞれの音声URLから実際にファイルを収集するための「ダウンローダー」が含まれています。

(1)CC Audio

Common Crawl(2025-18 スナップショット)の RSS フィードから抽出した音声URL・メタデータとダウンローダーです。

  • 時間: 約 24,000 時間(本データセットの音声URLは日本語以外を対象としたものを含むが、日本語のみの音声URLに絞ってダウンロードした場合)
  • 特徴: 多言語展開: 英語、スペイン語、ドイツ語、日本語など、上位20言語以上の広範な言語分布をカバーしています。ポッドキャスト音声が多く含まれます。
(2)Archive.org Audio Dataset

Archive.orgから抽出した音声URL・メタデータとダウンローダーです。

  • 時間: 約24,000時間(本データセットの音声URLは日本語のみを対象としており、それらをすべてダウンロードした場合)
  • 特徴: 音楽(約50%)や話し声(約7%)のほか、動物の鳴き声や乗り物の音など、多様なコンテンツ種別をカバーしています。
(3)コンテンツ種別の分布

音声の音響的な特徴を認識するツールであるWhisper-AT(https://github.com/yuangongnd/whisper-at)を用いて10秒セグメントごとに得られた音声・音響データに音響イベントのカテゴリー付けを行った結果を以下に示します。音声・音響に関する多様なコンテンツが網羅されていることが確認できます。

release_20260428_fig1.png

なお、Noneはいずれのカテゴリーにも明確に帰属しなかったセグメントを指し、CC Audioで44.1%、Archive.orgで24.9%と大きな割合を占めていますが、音声・音響として無価値であることを意味するわけではありません。また、Gruntは非言語的人声(息継ぎ等)のカテゴリーであり、両データセットに一定割合含まれることは自然な実環境音声が含まれていることを示していると考えられます。

(4)コーパスの公開URL
(5)文献情報

淺井航平, 杉浦一瑳, 中田亘, 栗田修平, 高道慎之介, 小川哲司, 東中竜一郎. Common Crawlを用いた大規模音声音響データセットの構築. pp. 1159-1162, 日本音響学会2025年秋季研究発表会.

2. ライセンスと利用について

  • コードおよびツールのライセンス: いずれのリポジトリも Apache License 2.0 の下でライセンスされています。
  • データの利用規約: 音声ファイル自体は各リポジトリに含まれず、各オリジナルソースの利用規約を遵守する責任はユーザーが負います。
  • 情報解析の制限: CC AudioおよびArchive.org Audio Datasetのメタデータ等は、日本国著作権法第30条の4が定める情報解析(AI学習等)の目的に限り利用することができます。
(参考1)LLM勉強会(LLM-jp)の概要
  1. NIIが主宰するLLM-jpでは、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から2,600名以上(2026年4月1日現在)が集まり、ハイブリッド会議、オンライン会議、Slack等を活用してLLMの研究開発について情報共有を行うとともに、共同でLLM構築等の研究開発を行っています。具体的には、以下の目的で活動しています。
    • オープンかつ日本語に強いLLMの構築とそれに関連する研究開発の推進
    • 上記に関心のある自然言語処理および関連分野の研究者によるモデル構築の知見や最近の研究の発展についての定期的な情報交換
    • データ・計算資源等の共有を前提とした組織横断的な研究者間の連携の促進
    • モデル・ツール・技術資料等の成果物の公開
  2. 「コーパス構築WG」「モデル構築WG」「チューニング・評価WG」「マルチモーダルWG」「実環境インタラクションWG」「対話WG」「学術ドメインWG」「安全性WG」「原理解明WG」を設置し、それぞれ、早稲田大学 河原大輔教授、東北大学 鈴木潤教授、東京大学 宮尾祐介教授、東京科学大学 岡崎直観教授、早稲田大学 尾形哲也教授、名古屋大学 東中竜一郎教授、国立情報学研究所 相澤彰子教授、国立情報学研究所 関根聡特任教授、東京大学 大関洋平准教授を中心に研究開発活動に取り組んでいます。このほか、東京大学 田浦健次朗教授、東京科学大学 横田理央教授(並列計算手法等)を筆頭に、多数の方々の貢献により活動を進めています。
  3. 詳細については、ホームページ https://llm-jp.nii.ac.jp/ をご参照ください。
(参考2)

本成果は文部科学省補助金事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」の結果得られたものです。

謝辞

本研究は、国立研究開発法人産業技術総合研究所および株式会社AIST Solutionsが提供するABCI 3.0「開発加速利用」の支援を受けて実施しました。

関連リンク

ニュースリリース(PDF版)

WebクロールとWebアーカイブに基づく大規模音声・音響データセットの一般公開


1 LLM-jp-Moshi:国立情報学研究所 大規模言語モデル研究開発センター(LLMC)が公開した、日本語に特化した同時双方向の音声対話モデル。人間同士のような自然な会話を目指して開発され、商用利用可能なライセンスで提供されている。
7431

注目コンテンツ / SPECIAL