ニュース / News

ニュースリリース

「サンプル名刺データ」を研究用データセットとして無償提供開始

大学共同利用機関法人 情報 ・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)とSansan株式会社(Sansan、代表取締役社長:寺田 親弘、東京都渋谷区)は研究コミュニティーへの研究用データ提供で提携(*1)し、NIIが5月23日よりSansanの所有する名刺情報のサンプルデータを「Sansanデータセット」として研究コミュニティーに無償提供します。

提供するデータは、Sansanが昨年実施したデータサイエンティスト向け分析コンテスト(*2)で使用された、サンプル名刺をスキャンした画像データ3841枚分です。最大9種類の項目(会社名、名前、役職、郵便番号を含む住所、電話番号、FAX番号、携帯電話番号、電子メールアドレス、webサイトのURL)の情報を含んでいます。

20170523-02.png 20170523-01.png

サンプル名刺データの画像の例

本データはSansanが自社で作成した架空の名刺であり、特定の企業や個人につながる情報や人物を特定できる個人情報は一切含まれておりません。「Sansanデータセット」は、NIIのデータセット共同利用研究開発センター(センター長:コンテンツ科学研究系教授 大山 敬三)の情報学研究データリポジトリ(IDR)を通じて提供されます。

【サンプル名刺データ提供の背景】

NIIは平成22年(2010年)にIDRを設置し、様々な企業や機関が保有する各種のデータセットを受け入れて研究コミュニティーに提供を行ってきました。平成27年(2015年)4月には、情報学研究に有用なデータセットを整備して研究者に提供するとともにデータセットの構築とその活用基盤に関する研究開発を行うデータセット共同利用研究開発センターを新設し、研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいます。

一方、Sansanでは、通常のドキュメントに比べて非定型でフォントやフォントサイズ、レイアウトなどのフォーマットが決まっていない名刺を年間数億枚も正確にデータ化しなければなりません。そのため、画像処理、機械学習のスペシャリストやデータサイエンティストがテクノロジーを進化させるような専門性の高い研究に取り組み、独自開発した名刺データ化システムと人力オペレーションを組み合わせたデータベースを構築しています。

個人情報である名刺はデータソースが限られるため、大学や研究機関での名刺の画像解析の研究は活発化しにくいのが現状です。こうした背景から、Sansanでは昨年にデータサイエンティスト向け分析コンテスト(*2)を開催するなど、オープンイノベーションを積極的に進めてきました。今回、NIIを通じてサンプル名刺データを広く研究コミュニティーに提供することにより、画像処理や機械学習の研究の発展に貢献できることを期待しています。NIIでは、今後もデータセットの拡充とデータセット共同利用の深化のための研究開発に取り組み、より多くの研究者が自由な発想で研究に利用できるようにするためのシステムプラットフォームの構築を進めてまいります。

ニュースリリース


(*1)「新たに提携」: 情報・システム研究機構とSansan株式会社が5月22日付で「データ提供及び利用に関する契約書」を締結。
(*2)データサイエンティスト向け分析コンテスト: 「人工知能は名刺をどこまで解読できるのか」(https://jp.corp-sansan.com/lp/data-sientist-c.html)

※本件は国立情報学研究所とSansan株式会社の共同発表です。

2302

注目コンテンツ / SPECIAL