> HOME > データ一覧 > Yahoo!データセット

「Yahoo! 知恵袋データ(第2版)」

国立情報学研究所がヤフー株式会社から提供を受けて研究者に提供しているデータセットです。

なお,2007年3月より提供しておりました「Yahoo! 知恵袋データ」(第1版)の提供は終了いたしました。

2011/01/06 現在

データ概要

「Yahoo!知恵袋」とは,質問したい人と回答したい人をむすび,知恵と知識を参加者同士で共有することを目的として,2004年4月からヤフー株式会社が提供している日本最大の知識検索サービスです。

本データは,「Yahoo!知恵袋」において下記の期間に解決済みとなった質問と回答を,ヤフー株式会社が「ヤフー知恵袋」のデータベースから抽出したものです。

  • 期間:2004年4月-2009年4月
  • 質問数:約1600万
  • 回答数:約5000万

<第1版との比較>

2007年3月に提供を開始した第1版は2005年10月までのベータ版期間の投稿データでしたが,第2版では2004年4月から2009年4月までのデータを提供致します。

投稿データの対象期間が拡大しただけでなく,2006年5月より対応している携帯電話からの投稿データも加わります。

さらに,第1版の対象期間の後に「Yahoo!知恵袋」に機能追加された,投稿に付随するデータ(評価数,コイン数,知恵コレクション数,モバイルフラグなど)も新たに提供致します。

  第1版 (提供終了) 第2版
対象期間 2004年4月-2005年10月 2004年4月-2009年4月
質問数 約300万 約1600万
回答数 約1300万 約5000万

NTCIR-8 CQA テストコレクション

ご希望の方には,「Yahoo! 知恵袋データ(第2版)」と併せて,本データを用いたテストコレクション「NTCIR-8 CQA」も提供します。

このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です。
国立情報学研究所が主催するNTCIRプロジェクトにより作成されたもので,以下のデータからなります。

  • Yahoo知恵袋データ第一弾から抽出した1500件の質問
  • 判定者4名による判定結果
  • IDリスト,ベストアンサーリスト,カテゴリ情報など

テストコレクションの詳細についてはNTCIR-8 CQAのページをご覧ください。

申請方法

利用手続きをご覧下さい。

関連資料

<第1版関連>

「Yahoo!知恵袋」データを活用した研究例