ニュース / News

NII情報

提供中の「楽天データセット」を更新

 情報学研究データリポジトリ(IDR)では、楽天株式会社の協力の下で提供している楽天データセットにつきまして、データ更新を行うこととなりました。

 今回は「アノテーション付きデータ」の一つとして、「Rakuten France: マルチモーダルプロダクトデータセット」が追加されました。

 本データはRakuten Franceに掲載された商品情報及び商品画像からなり、以下のデータチャレンジで使用されたものです。

「SIGIR 2020 E-Commerce Workshop Data Challenge」

 商品情報の主言語はフランス語です。商品画像は500×500ピクセルのJPEG ファイルで、学習用・テスト用合わせて約37,000点あります。
 タスクやデータの詳細は上記データチャレンジのページをご参照ください。

 本データセットは大学および公的研究機関の研究者を対象として学術研究 利用に限り提供しています。入手方法等は下部のリンクをご参照ください。

[提供中のデータ一覧]

  1. 楽天市場:全商品データ(約2億8300万商品)、商品レビューデータ (約7000万レビュー)、ショップレビューデータ(約2250万レビュー)
  2. 楽天トラベル:施設データ(2.9万施設)、レビューデータ(約656万 レビュー)
  3. 楽天GORA:ゴルフの施設データ(1,669施設)、レビューデータ(約32万 レビュー)
  4. 楽天レシピ:レシピ情報 (約80万レシピ)、レシピ画像 (約80万画像)、 Pickupレシピ(1,854レシピ)、デイリシャスニュース(362件)
  5. アノテーション付きデータ
    • 筑波大学文単位評価極性タグ付きコーパス(TSUKUBAコーパス)
    • カテゴリラベル付き商品画像データセット
    • 文字領域アノテーション画像
    • 楽天不動産間取り図と壁ラベル
    • Rakuten France: ユーザ評価・レビュー有効性情報
    • Rakuten France: 書籍情報・著者名情報
    • Rakuten France: マルチモーダルプロダクトデータセット ※今回追加
    • 楽天ブックス著者名の曖昧性解消実験用書誌データ
    • 楽天トラベルレビュー: アスペクト・センチメントタグ付きコーパス

提供データは今後も増やしていく予定です。研究に広くご活用いただければ幸いです。

関連リンク
4736

注目コンテンツ / SPECIAL