NTCIRテストコレクション
国立情報学研究所が主催するNTCIRプロジェクトにより構築されたテストコレクションです。
2011/01/06 現在
NTCIR-8 CQA テストコレクション
-
概要
このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です。
このテストコレクションは,以下のデータからなります。
- Yahoo知恵袋データ第一弾から抽出した1500件の質問
- 判定者4名による判定結果
- IDリスト,ベストアンサーリスト,カテゴリ情報など
-
入手方法
本データは必ず「Yahoo!知恵袋」データと併せてご利用頂くことになります。入手方法については「Yahoo!知恵袋」データのページをご覧ください。
NTCIR WEBテストコレクション
- 文書データ
(入手方法についてはしばらくお待ち下さい)
Webから収集した大量のHTML及びプレーンテキストファイルを含むデータです。言語は主に日本語と英語ですが,ごく一部にその他の言語を含んでいます。- NW100G-01 (NTCIR-3 WEB, NTCIR-4 WEB用)
2001年に収集した,文書数約1100万ページ,容量約100GBのWeb文書データです。収集サイト名,文書URL,リンク等のリストファイルと,ローデータ,EUCコードデータ,テキストデータ等の文書ファイルがあります。データの詳細についてはNTCIR Project NTCIR-4 WEB(Web検索評価用テストコレクション)をご覧下さい。 - NW1000G-04 (NTCIR-5 WEB用)
2004~2005年に収集した,文書数約1億ページ,容量約1.4TBのWeb文書データです。収集サイト名,文書URL,リンク,アンカーテキストのリストファイルと,ローデータ,EUCコードデータ,テキストデータ,形態素解析済みデータの文書ファイルがあります。詳細はNTCIR Project NTCIR-5 WEB(Web検索評価用テストコレクション)をご覧下さい。
- NW100G-01 (NTCIR-3 WEB, NTCIR-4 WEB用)
- 検索課題・適合判定データ
(入手方法についてはしばらくお待ち下さい)
- NTCIR-3 WEB用
メインタスクと音声入力型検索サブタスクがあります。文書データには,NTCIR WEB文書データ NW100G-01を使用します。詳細はNTCIR Project テストコレクション利用手続き・覚書(研究目的用)をご覧下さい。 - NTCIR-4 WEB用
情報指向検索タスクとナビゲーション指向情報検索タスクがあります。文書データには,NTCIR WEB文書データ NW100G-01を使用します。詳細はNTCIR Project NTCIR-4 WEB(Web検索評価用テストコレクション) データ利用手続き(研究目的用)をご覧下さい。 - NTCIR-5 WEB用
ナビゲーション指向情報検索タスクです。文書データには,NTCIR WEB文書データ NW1000G-04を使用します。詳細はNTCIR Project NTCIR-5 WEB(Web検索評価用テストコレクション) データ利用手続き(研究目的用)をご覧下さい。
- NTCIR-3 WEB用
その他のNTCIRから提供中のデータ
14種類のタスクの,27種類のテストコレクションをNTCIR事務局から提供中です。詳細についてはテストコレクション一覧をご覧下さい。


