> HOME > データ一覧 > Yahoo!データセット > 知恵袋データの提供について

「Yahoo! 知恵袋データ(第2版)」の提供について

「Yahoo!知恵袋」とは,質問したい人と回答したい人をむすび,知恵と知識を参加者同士で共有することを目的として,2004年4月からヤフー株式会社が提供している日本最大の知識検索サービスです。

国立情報学研究所ではヤフー株式会社との契約に基づき,研究者に対して「Yahoo!知恵袋データ(第2版)」を提供します。

なお,2007年3月より提供しておりました「Yahoo! 知恵袋データ」(第1版)の提供は終了いたしました。

データ概要

本データは,「Yahoo!知恵袋」において下記の期間に解決済みとなった質問と回答を,ヤフー株式会社が「ヤフー知恵袋」のデータベースから抽出したものです。

  • 期間:2004年4月-2009年4月
  • 質問数:約1600万
  • 回答数:約5000万

<第1版との比較>

2007年3月に提供を開始した第1版は2005年10月までのベータ版期間の投稿データでしたが,第2版では2004年4月から2009年4月までのデータを提供致します。

投稿データの対象期間が拡大しただけでなく,2006年5月より対応している携帯電話からの投稿データも加わります。

さらに,第1版の対象期間の後に「Yahoo!知恵袋」に機能追加された,投稿に付随するデータ(評価数,コイン数,知恵コレクション数,モバイルフラグなど)も新たに提供致します。

  第1版 (提供終了) 第2版
対象期間 2004年4月-2005年10月 2004年4月-2009年4月
質問数 約300万 約1600万
回答数 約1300万 約5000万

また,本データを用いたテストコレクション「NTCIR-8 CQA」も併せて提供します。データの内容についてはNTCIRテストコレクションのページをご覧ください。

申請方法

利用手続きをご覧下さい。

関連資料

<第1版関連>


「Yahoo!知恵袋」データを活用した研究例