「Yahoo! 知恵袋データ(第2版)」の提供について
「Yahoo!知恵袋」とは,質問したい人と回答したい人をむすび,知恵と知識を参加者同士で共有することを目的として,2004年4月からヤフー株式会社が提供している日本最大の知識検索サービスです。
国立情報学研究所ではヤフー株式会社との契約に基づき,研究者に対して「Yahoo!知恵袋データ(第2版)」を提供します。
なお,2007年3月より提供しておりました「Yahoo! 知恵袋データ」(第1版)の提供は終了いたしました。
データ概要
本データは,「Yahoo!知恵袋」において下記の期間に解決済みとなった質問と回答を,ヤフー株式会社が「ヤフー知恵袋」のデータベースから抽出したものです。
- 期間:2004年4月-2009年4月
- 質問数:約1600万
- 回答数:約5000万
<第1版との比較>
2007年3月に提供を開始した第1版は2005年10月までのベータ版期間の投稿データでしたが,第2版では2004年4月から2009年4月までのデータを提供致します。
投稿データの対象期間が拡大しただけでなく,2006年5月より対応している携帯電話からの投稿データも加わります。
さらに,第1版の対象期間の後に「Yahoo!知恵袋」に機能追加された,投稿に付随するデータ(評価数,コイン数,知恵コレクション数,モバイルフラグなど)も新たに提供致します。
| 第1版 (提供終了) | 第2版 | |
|---|---|---|
| 対象期間 | 2004年4月-2005年10月 | 2004年4月-2009年4月 |
| 質問数 | 約300万 | 約1600万 |
| 回答数 | 約1300万 | 約5000万 |
また,本データを用いたテストコレクション「NTCIR-8 CQA」も併せて提供します。データの内容についてはNTCIRテストコレクションのページをご覧ください。
申請方法
利用手続きをご覧下さい。
関連資料
- プレスリリース(2009.6.3)
- 2009 NIIオープンハウスポスター:
<第1版関連>
- データ配布案内ページ
- プレスリリース(2007.3.6)
- 2008 NIIオープンハウスポスター:
- 2007 NIIオープンハウスポスター:
「Yahoo!知恵袋」データを活用した研究例
- 第1版データを利用した研究成果例(~2008年度)
データの利用者よりご提供いただいた研究成果の要旨です。 - 第1版データを利用した発表論文例(~2008年度)
データの利用者およびヤフー株式会社よりご提供いただいた発表論文等のタイトル一覧です。 - KOTONOHA「現代日本語書き言葉均衡コー パス」検索デモンストレーション(国立国語研究所)
国立国語研究所 KOTONOHA「現代日本語書き言葉均衡コーパス」の一部としてYahoo!知恵袋のデータが試験登録されています。 - 知識共有コミュニティワークショップ
情報社会学会の主催で2008, 2009年の2回に亘り本ワークショップが開催され,Yahoo!知恵袋データに関連が深い研究成果が多数発表されました。


