ニュース / News

お知らせ

公開中の「楽天データセット」に新規データを追加

 国立情報学研究所(NII)情報学研究データリポジトリ(IDR)では、楽天株式会社の協力の下2010年から提供している楽天データセットにつきまして、8度目のデータ更新を行うこととなりました。

 今回はRakuten Franceに掲載された書籍情報と、その一部に対し正規化した著者名表記を付加したデータを提供いたします。こちらのデータは「Who wrote this book? A challenge for e-commerce」の論文にて使用されているデータとなります。

[提供中のデータ一覧]

  1. 楽天市場:全商品データ(約1億5,600万商品)、レビューデータ(約6,400万レビュー)
  2. 楽天トラベル:施設データ(127,711施設)、レビューデータ(約600万レビュー)
  3. 楽天GORA:ゴルフの施設データ(1,669施設)、レビューデータ(約32万レビュー)
  4. 楽天レシピ:レシピ情報 (約80万レシピ)、レシピ画像 (約80万画像)、Pickupレシピ(1,854レシピ)、デイリシャスニュース(362件)
  5. アノテーション付きデータ
    1. 筑波大学文単位評価極性タグ付きコーパス(TSUKUBAコーパス):筑波大学よりご提供いただいた,楽天トラベルのレビューデータに対して,文単位で評価極性情報を付与したコーパス
    2. カテゴリラベル付き商品画像データセット:Caltech-256にある一部のカテゴリに対応する楽天ジャンルの商品画像にカテゴリの判定結果を付与したデータセット
    3. 文字領域アノテーション画像:画像内の文字領域の矩形の座標を付与したもの
    4. 楽天不動産間取り図と壁ラベル:不動産間取り図 (株式会社LIFULL提供)500枚と、その中の壁の位置をピクセル表記でアノテーションしたもの
    5. Rakuten France:ユーザ評価・レビュー有効性情報:Rakuten Franceに掲載された商品についてのユーザによるレビューとその有効性情報
    6. Rakuten France: 書籍情報・著者名情報:Rakuten Franceに掲載された書籍情報と、その一部に対し正規化した著者名表記を付加したデータ(※2019-07-05 新規追加)

公開データは今後も増やしていく予定です。研究に広くご活用いただければ幸いです。

3805

注目コンテンツ / SPECIAL