> HOME > データ一覧

データセット一覧

国立情報学研究所が情報学関連分野の研究者に提供しているデータセットの一覧です。一部,準備中のデータセットも含まれています。

2011/08/23 現在

Yahoo!データセット

国立情報学研究所がヤフー株式会社から提供を受けて研究者に提供しているデータセットです。

  1. Yahoo!知恵袋データ(第2版)
  2. Yahoo!ブログデータ(準備中)

楽天データセット

国立情報学研究所が楽天株式会社との協力により研究者に提供しているデータセットです。

  1. 楽天市場の全商品データ(約5000万商品)、レビューデータ(約1660万レビュー)
  2. 楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)
  3. 楽天ゴルフの施設データ(1,669施設)、レビューデータ(32万レビュー)

NTCIRテストコレクション

国立情報学研究所が主催するNTCIRプロジェクトにより構築されたテストコレクションです。IDRからは以下のテストコレクションを提供しています。その他のテストコレクションについてはテストコレクション一覧をご覧下さい。(提供はNTCIR事務局からとなります。)

  1. NTCIR-8 CQA テストコレクション
    • 検索課題・適合判定データ
    ※ 文書データにはYahoo!知恵袋データを使用します。
  2. NTCIR WEB テストコレクション
    • 文書データ
      1. NW100G-01 (NTCIR-3 WEB, NTCIR-4 WEB用)
      2. NW1000G-04 (NTCIR-5 WEB用)
    • 検索課題・適合判定データ
      1. NTCIR-3 WEB用
      2. NTCIR-4 WEB用
      3. NTCIR-5 WEB用

音声コーパス

国立情報学研究所に設置された音声資源コンソーシアムがさまざまな機関やグループから受け入れて研究者に提供している音声コーパスです。(当面の間,提供は音声資源コンソーシアムからとなります。)

  1. 重点領域研究「音声言語」・試験研究「音声DB」 連続音声データベース (PASL-DSR)
  2. 筑波大 多言語音声コーパス (UT-ML)
  3. 東北大‐松下 単語音声データベース (TMW)
  4. 基盤研究(A)「日本語方言の地域差」方言音声コーパス (GSR-JD)
  5. RWCP 音声データベース
    1. RWCP-SP96 音声対話データベース(96年版)
    2. RWCP-SP97 音声対話データベース(97年版)
    3. RWCP-SP99 検索・要約用ニュース音声データベース
    4. RWCP-SP01 会議音声データベース
  6. RWCP 実環境音声・音響データベース (RWCP-SSD)
  7. 重点領域研究「音声対話」 対話音声コーパス (PASD)
  8. CIAIR 子供の声データベース (CIAIR-VCV)
  9. IPSJ SIG-SLP 雑音下音声認識評価環境 (CENSREC)
    1. CENSREC-1 (AURORA-2J) 雑音重畳日本語連続数字 音声認識評価環境
    2. CENSREC-1-C 雑音下日本語連続数字 音声区間検出評価環境
    3. CENSREC-2  実環境車内 日本語連続数字 音声認識評価環境
    4. CENSREC-3  実環境車内 日本語単語 音声認識評価環境
    5. CENSREC-4  残響下日本語連続数字 音声認識評価環境
  10. 特定領域研究「メディア教育利用」音声データベース (UME)
    1. UME-ERJ 日本人学生による読み上げ英語音声データベース
    2. UME-JRF 留学生による読み上げ日本語音声データベース
  11. 理研ワープロ操作対話音声コーパス (RIKEN-DLG)
  12. 千葉大 日本語地図課題対話コーパス (MapTask)
  13. 宇都宮大学 パラ言語情報研究向け音声対話データベース (UUDB)
  14. 電総研 単語音声データベース (ETL-WD)
  15. 鶴岡調査音声データベース91 (Tsuruoka91)
  16. 日本音響学会 新聞記事読み上げ音声コーパス (JNAS)
  17. 新聞記事読み上げ高齢者音声コーパス (S-JNAS)
  18. 日本音響学会 研究用連続音声データベース (ASJ-JIPDEC)
  19. NTT・東北大 親密度別単語了解度試験用音声データセット (FW03)
  20. NTT・東北大 親密度別単語了解度試験用音声データセット2007 (FW07)
  21. NTT 乳幼児音声データベース (INFANT)
  22. 電子協 日本語共通音声データ (JEIDA-JCSD)
  23. 電子協 騒音データベース (JEIDA-NOISE)

映像データベース

電子情報通信学会パターン認識・メディア理解研究会VDBWGにより作成された映像処理評価用映像データベースです。(現在,新規配布を停止しております。配布再開の準備ができましたら本サイトにてご案内します。)

  1. A群
    1. 女王様のブランチ 浅草・札幌 日本語版・英語版
    2. 女王様のブランチ 横浜 日本語版・英語版
    3. 女王様のブランチ 原宿・六本木 日本語版・英語
  2. B群
    1. ニュース19 (1) 日本語版・英語版
    2. ニュース19 (2) 日本語版・英語版
    3. ピエロの涙
    4. 音色~日本の夏を彩る伝統の技~
    5. ランクアップCooking