「Yahoo! 知恵袋データ(第2版)」
国立情報学研究所がヤフー株式会社から提供を受けて研究者に提供しているデータセットです。
【お知らせ】
「Yahoo!知恵袋データ(第2版)」の利用申請は2018年10月31日をもって受付を終了いたしました。
現在提供中の「Yahoo!知恵袋データ(第3版)」については,こちらのページをご覧ください。
2018/10/31 現在
データ概要
「Yahoo!知恵袋」とは,質問したい人と回答したい人をむすび,知恵と知識を参加者同士で共有することを目的として,2004年4月からヤフー株式会社が提供している日本最大の知識検索サービスです。
本データは,「Yahoo!知恵袋」において下記の期間に解決済みとなった質問と回答を,ヤフー株式会社が「ヤフー知恵袋」のデータベースから抽出したものです。
- 期間:2004年4月-2009年4月
- 質問数:約1600万
- 回答数:約5000万
<第1版との比較>
2007年4月に提供を開始した第1版は2005年10月までのベータ版期間の投稿データでしたが,第2版では2004年4月から2009年4月までのデータを提供致します。
投稿データの対象期間が拡大しただけでなく,2006年5月より対応している携帯電話からの投稿データも加わります。
さらに,第1版の対象期間の後に「Yahoo!知恵袋」に機能追加された,投稿に付随するデータ(評価数,コイン数,知恵コレクション数,モバイルフラグなど)も新たに提供致します。
第1版 (提供終了) | 第2版 | |
---|---|---|
対象期間 | 2004年4月-2005年10月 | 2004年4月-2009年4月 |
質問数 | 約300万 | 約1600万 |
回答数 | 約1300万 | 約5000万 |
NTCIR-8 CQA テストコレクション
ご希望の方には,「Yahoo! 知恵袋データ(第2版)」と併せて,本データを用いたテストコレクション「NTCIR-8 CQA」も提供します。
このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です。
国立情報学研究所が主催するNTCIRプロジェクトにより作成されたもので,以下のデータからなります。
- Yahoo知恵袋データ第一弾から抽出した1500件の質問
- 判定者4名による判定結果
- IDリスト,ベストアンサーリスト,カテゴリ情報など
テストコレクションの詳細についてはNTCIR-8 CQAのページをご覧ください。
申請方法
利用手続きをご覧下さい。
関連資料
- プレスリリース(2009.6.3)
- 2009 NIIオープンハウスポスター:
<第1版関連>
- データ配布案内ページ
- プレスリリース(2007.3.6)
- 2008 NIIオープンハウスポスター:
- 2007 NIIオープンハウスポスター:
「Yahoo!知恵袋」データを活用した研究例
- 第1版データを利用した研究成果例(~2008年度)
データの利用者よりご提供いただいた研究成果の要旨です。 - 第1版データを利用した発表論文例(~2008年度)
データの利用者およびヤフー株式会社よりご提供いただいた発表論文等のタイトル一覧です。 - KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーション(国立国語研究所)
国立国語研究所 KOTONOHA「現代日本語書き言葉均衡コーパス」の一部としてYahoo!知恵袋のデータが試験登録されています。 - 知識共有コミュニティワークショップ
情報社会学会の主催で2008, 2009年の2回に亘り本ワークショップが開催され,Yahoo!知恵袋データに関連が深い研究成果が多数発表されました。