NTCIR WEB文書データ利用手続き (研究目的用)
データ概要
Webから収集した大量のHTML及びプレーンテキストファイルを含むデータです。言語は主に日本語と英語ですが,ごく一部にその他の言語を含んでいます。
- NW100G-01 (NTCIR-3 WEB, NTCIR-4 WEB用)
2001年に収集した,文書数約1100万ページ,容量約100GBのWeb文書データです。収集サイト名,文書URL,リンク等のリストファイルと,ローデータ,EUCコードデータ,テキストデータ等の文書ファイルがあります。データの詳細についてはNTCIR Project NTCIR-4 WEB(Web検索評価用テストコレクション)をご覧下さい。 - NW1000G-04 (NTCIR-5 WEB用)
2004~2005年に収集した,文書数約1億ページ,容量約1.4TBのWeb文書データです。収集サイト名,文書URL,リンク,アンカーテキストのリストファイルと,ローデータ,EUCコードデータ,テキストデータ,形態素解析済みデータの文書ファイルがあります。詳細はNTCIR Project NTCIR-5 WEB(Web検索評価用テストコレクション)をご覧下さい。
使用条件
利用目的は研究に限ります。
詳細は下記必要書類の「覚書(サンプル)」をご覧下さい。
お申し込み
本データの申込み方法は次の通りです。いずれも無料です。申込に必要な書類は下記「必要書類」からダウンロードしてください。
-
希望する文書データ用の「覚書(サンプル)」の内容を十分に確認の上,以下にしたがって「利用申請書」に必要事項を記入してください。
-
申請の単位は大学の研究室等とし,研究代表者は研究室等を代表する常勤の職員(大学の場合は教員等)の方としてください。
-
覚書に記載しますので,利用申請書の契約者欄には法人名(「国立大学法人」等)も含めて組織名を省略せずにご記入ください。
-
研究グループ構成員になれるのは,申請者と同じ組織に所属し,直接に共同して研究を行う方のみです。たとえ共同研究で使用する場合あっても,他機関や他の独立した研究室の方が使用する場合は,別途に申請してください。
-
-
「利用申請書」を電子メールの添付ファイルで下記「問い合わせ窓口」(IDR事務局)宛に提出してください。
-
メールの件名を「NTCIR-WEB文書データ利用申請(○○大学)」としてください。件名が明記されていない場合はメールが破棄される場合があります。
-
-
申込内容についてIDR事務局にて確認し,折り返し利用の可否をご連絡します(数日かかることがありますがご了承ください)。なお,使用目的等によってはご利用いただけない場合もあることをご承知おきください。
-
利用者と国立情報学研究所の間で覚書を締結します。
-
「覚書様式」(PDFファイル)を電子メールの添付ファイルでお送りします。
-
かならずデータごとに両面印刷で2部プリントアウトし,押印の上,2部とも下記事務局宛に郵送してください。
-
国立情報学研究所にて押印をした後,1部を返送しますので,大切に保管してください。
-
-
覚書締結後,IDR事務局よりデータをご提供します。
データ提供方法
データはIDR事務局より,原則としてWebサーバからのダウンロードにより提供します。技術的な理由によりダウンロードができない場合は代替のメディアも考慮しますのでご相談ください。
必要書類
- 利用申請書(Wordファイル)
- 覚書(サンプル)
NTCIRメーリングリストについて
NTCIRプロジェクトからのお知らせ等をメーリングリストで配信しています。ご興味をお持ちの方は「NTCIR Projectメイリングリスト」のページをご覧になり,ご自身で登録して下さい。
問い合わせ窓口(IDR事務局)
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所 IDR事務局
電話: 03-4212-2009
電子メール: idr [at] nii.ac.jp
※問い合わせ等はできるだけ電子メールでお願いします。