> HOME > データ一覧 > NTCIRテストコレクション

NTCIRテストコレクション

国立情報学研究所が主催するNTCIRプロジェクトにより構築されたテストコレクションです。

2011/01/06 現在

NTCIR-8 CQA テストコレクション

  1. 概要
    このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です。
    このテストコレクションは,以下のデータからなります。
    • Yahoo知恵袋データ第一弾から抽出した1500件の質問
    • 判定者4名による判定結果
    • IDリスト,ベストアンサーリスト,カテゴリ情報など
    テストコレクションについてはNTCIR-8 CQAのページをご覧ください。
  2. 入手方法
    本データは必ず「Yahoo!知恵袋」データと併せてご利用頂くことになります。入手方法については「Yahoo!知恵袋」データのページをご覧ください。

NTCIR WEBテストコレクション


  1. 文書データ (入手方法についてはしばらくお待ち下さい)
    Webから収集した大量のHTML及びプレーンテキストファイルを含むデータです。言語は主に日本語と英語ですが,ごく一部にその他の言語を含んでいます。
    1. NW100G-01 (NTCIR-3 WEB, NTCIR-4 WEB用)
      2001年に収集した,文書数約1100万ページ,容量約100GBのWeb文書データです。収集サイト名,文書URL,リンク等のリストファイルと,ローデータ,EUCコードデータ,テキストデータ等の文書ファイルがあります。データの詳細についてはNTCIR Project NTCIR-4 WEB(Web検索評価用テストコレクション)をご覧下さい。
    2. NW1000G-04 (NTCIR-5 WEB用)
      2004~2005年に収集した,文書数約1億ページ,容量約1.4TBのWeb文書データです。収集サイト名,文書URL,リンク,アンカーテキストのリストファイルと,ローデータ,EUCコードデータ,テキストデータ,形態素解析済みデータの文書ファイルがあります。詳細はNTCIR Project NTCIR-5 WEB(Web検索評価用テストコレクション)をご覧下さい。

  2. 検索課題・適合判定データ (入手方法についてはしばらくお待ち下さい)
    1. NTCIR-3 WEB用
      メインタスクと音声入力型検索サブタスクがあります。文書データには,NTCIR WEB文書データ NW100G-01を使用します。詳細はNTCIR Project テストコレクション利用手続き・覚書(研究目的用)をご覧下さい。
    2. NTCIR-4 WEB用
      情報指向検索タスクとナビゲーション指向情報検索タスクがあります。文書データには,NTCIR WEB文書データ NW100G-01を使用します。詳細はNTCIR Project NTCIR-4 WEB(Web検索評価用テストコレクション) データ利用手続き(研究目的用)をご覧下さい。
    3. NTCIR-5 WEB用
      ナビゲーション指向情報検索タスクです。文書データには,NTCIR WEB文書データ NW1000G-04を使用します。詳細はNTCIR Project NTCIR-5 WEB(Web検索評価用テストコレクション) データ利用手続き(研究目的用)をご覧下さい。

その他のNTCIRから提供中のデータ

14種類のタスクの,27種類のテストコレクションをNTCIR事務局から提供中です。詳細についてはテストコレクション一覧をご覧下さい。