研究シーズ2015知能システム科学

機械学習とユーザ参加による大規模データの名寄せ

大向 一輝コンテンツ科学研究系 准教授

研究分野機械学習/知識構造化/名寄せ

研究背景・目的

データ中心科学・イノベーションの実現のためには、複数の情報源から得られるデータを統合し、付加価値の高いデータベースを構築・管理する必要があります。データ統合に際してはいわゆる「名寄せ」の処理が不可欠ですが、大規模かつ不均質なデータの名寄せにあたっては共通の識別子が存在しないことが多く、内容の類似性に

基づく同一性判定が求められます。このような知的な処理を、組織による人的な対応で実施するには過大なコストを要します。一方、近年注目されている機械学習などの適用によって網羅的な処理を行うことは可能ですが、精度を保証することはできません。そこで、本研究では両者のアプローチを取り入れるとともに、ユーザの参加を求めることで長期的なデータ品質の確保を目指す手法を提案します。また、本手法の有用性を検証するために、国立情報学研究所が運営する学術情報サービスCiNiiに実際に導入し運用を行っています。

研究内容

学術情報サービスCiNiiでは複数のデータベースに格納された論文情報の統合・管理を行うとともに、論文の著者について一意のIDを付与することで研究者ごとの成果を一覧することが可能です。これを実現するために、あらゆる論文における任意の著者名のペア(x,y)の同一性を機械学習によって判別します。判別に必要な素性は氏名の文字列の類似度だけでなく、共著者の氏名の類似度といった論文ならではの特徴を用います。判別結果に対してクラスタリングを行い、分割された個々のグラフに対して固有のIDを付与します。サービス上ではこのIDを著者IDとして表示しますが、ユーザがこの結果を適切でないと判断した場合には簡易なインターフェイスによってフィードバックすることが可能です。実際にはこのようなインタラクションを行うためには判別の段階で誤統合を避ける処理が必要になります。本提案手法では総合的なシステム設計・アルゴリズム設計によって機械処理とユーザ参加それぞれの利点を生かすことが可能になっています。

ohmukai_2.jpg

ohmukai_1.jpg

産業応用の可能性

  • ビッグデータ・オープンデータ利活用のための情報統合
  • 機械学習アルゴリズムの継続的な精度向上
  • ベストエフォートを前提とした情報サービスにおけるユーザからの問い合わせコストの低減
連絡先

大向 一輝[コンテンツ科学研究系 准教授]
http://i2k.jp
i2k[at]nii.ac.jp ※[at]を@に変換してください

Recommend

さらにみる