研究シーズ2014知能システム科学

機械翻訳と含意関係認識による高度なテキスト情報理解

宮尾 祐介コンテンツ科学研究系 准教授

研究分野自然言語処理/機械翻訳/含意関係認識

研究背景・目的

現代では、インターネット上のテキスト情報にアクセスしない日は無いと言っても過言ではありません。しかし、我々がふだん目にする情報は、インターネット全体の中で検索エンジンによって提示されるごく一部です。異なる言語で書かれた多様な情報や、検索エンジンの裏に埋もれた詳細な情報にアクセスすることは困難です。本項目では、異なる言語で書かれた情報にアクセスするための機械翻訳と、2つの異なるテキストが同じ情報を表しているかどうかを自動認識する含意関係認識について紹介します。これらの技術により、テキストデータを単なるデータとして処理するのではなく、そこに書かれた意味内容、すなわち情報に効率的にアクセスすることが可能となります。

研究内容

機械翻訳は、欧米の言語間では近年急速に普及し、多様な情報に手軽にアクセスできるようになりました。しかし、日英翻訳や日中翻訳はいまだに精度が低く、効果的な情報アクセスは難しいのが現状です。本研究では、英語、日本語、中国語の高精度な構文解析技術を応用し、翻訳元のテキストを前処理して翻訳先の言語に近づけることで、統計的学習による機械翻訳を高精度化する技術を開発しました。一方、スマートフォンなどの普及により質問応答技術が注目されつつありますが、現時点では比較的単純な質問(例えば「周辺のイタリアンレストランは?」)にしか答えることができません。複雑な質問に高精度で答えるためには、含意関係認識により必要な情報をピンポイントで同定する必要があります。本研究では、テキストの意味を集合間関係として定式化することで、表層的類似性に基づく手法や定理証明に基づく手法よりも高速、高精度、かつ頑健に含意関係認識を行う技術を開発しました。

miyao_1.jpg

miyao_2.jpg

産業応用の可能性

  • 社内文書や特許文書などの専門文書の自動翻訳の高精度化(特に日本語、英語、中国語間の翻訳)
  • スマートフォンなどの携帯端末における音声翻訳の高精度化
  • 複雑な質問に対しても必要な情報がピンポイントで見つかる検索・質問応答
  • 同じ意味内容のテキストをフィルタリングすることによる新情報の検出

研究者の発明

  • 特願2013-108335:自然言語推論システム、自然言語推論方法及びプログラム ほか
連絡先

宮尾 祐介[コンテンツ科学研究系 准教授]
http://kmcs.nii.ac.jp/mylab/

Recommend

さらにみる