Sansanデータセット
国立情報学研究所がSansan株式会社から提供を受けて研究者に提供しているデータセットです。
2017/05/23 作成
データ概要
- サンプル名刺データ
Sansan株式会社がクラウド名刺管理サービスのデータ化技術検証用に作成したダミーの名刺画像データで,データ分析コンテスト「人工知能は名刺をどこまで解読できるのか」で使用されたものです。
氏名等の内容は実在しないサンプルですが,画像データは実際にスキャナやカメラで取り込んだもので,学習用に2,480枚,テスト用に1,001枚をPNG形式で提供します。
各画像データにつき平均して9領域(学習用に25,358領域,テスト用に8,918領域)の位置座標が与えられており,各領域に対し,「会社名」「氏名」「役職」「住所(郵便番号を含む)」「電話番号」「FAX番号」「携帯番号」「E-mailアドレス」「HPのURL」の各項目が含まれるか否かのラベルが付与されています。
データの説明についてはSansan株式会社提供の説明書もご参照ください。
更新情報
- 「サンプル名刺データ」の配布を開始しました。(2017/05/23)
提供対象者
本データセットは研究目的であればどなたでもご利用頂けます。
データ提供方法
以下の「申請・ダウンロード手順」に従い利用者情報をご登録頂ければ,その場で利用者専用のダウンロードページが表示されます。記載内容をご確認の上,データをダウンロードしてください。なお,個別のご要望には応じかねますのでご了解ください。
申請・ダウンロード手順
「サンプル名刺データ」は以下の手順で申請・ダウンロードしてください。
- 以下の申請フォームに必要事項を入力してください。
- Sansan株式会社が定めた「『サンプル名刺データ』利用規約」及び国立情報学研究所が定めた「『サンプル名刺データ』ダウンロードサービス規約」を良く読み,同意いただける場合はチェック欄にチェックしてください。(同意いただけない場合はデータはご利用頂けません。)
- 関連情報配信用のメーリングリストへの登録希望を選択してください。
- 入力した内容を確認の上,「送信」ボタンをクリックしてください(別のWebサーバに接続します)。
- ダウンロード用のWebページが表示されます。表示に従ってデータをダウンロードしてください。
注:
入力いただいたデータは,統計,本データに関する連絡,及び本データを利用した研究業績の収集・整理・分析等に利用します。
メールアドレスは利用者メーリングリストに登録させて頂きます。また,メールアドレスはデータへのアクセス制御にも使用しますので,必ずご自分のメールアドレスを正確に記入してください。
申請フォーム
問い合わせ窓口(IDR事務局)
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所 IDR事務局
電話: 03-4212-2009
電子メール: idr [at] nii.ac.jp
※問い合わせ等はできるだけ電子メールでお願いします。
利用者向けページ (既にデータをご利用中の方へ)
Sansanデータセットの利用者向けの情報を掲載しています。→ 利用者向けページ