研究シーズ2019知能システム科学

人間の知的活動を支援するテキスト処理技術

相澤 彰子コンテンツ科学研究系 教授/知識コンテンツ科学研究センター長

研究分野自然言語処理/テキストメディア/知識処理

研究背景・目的

言語は人間の知的な活動の基盤であり、コンピュータによる言語処理は、知能システムの欠かせない構成要素となっています。言語処理により人間の情報収集・発信や意思決定を支援するためには、単にコンピュータでテキストの意味を解析するだけではなく、テキストの読み手・書き手である人間が、どのように言語を処理しているかを想定して、システムを構築する必要があります。本研究では、深層学習を含む機械学習、コーパス分析、アノテーションなどを用いて、コンピュータによるテキストの意味解析と人の言語活動のモデル化、および両者をつなぐ手法の開発に取り組んでいます(図1)。

19-aizawa_image1.png

図1 テキストを介した人間の言語活動(研究背景・目的)

研究内容

最近の研究トピックとして、「人間・コンピュータの共通理解基盤の実現に向けた言語理解タスクデザイン」を紹介します(図2)。人間とコンピュータが言語テキストを介して情報をやりとりするためには、与えられたテキストに対する解釈(意味)を共有する必要があります。ここで、機械学習を前提とする今日の言語処理において、研究の要となるのは言語タスクのデザインです。言語タスクを工夫することで、共通理解に必要な言語スキルを明らかにしたり、特定の言語スキルを獲得するようにコンピュータを訓練したりすることが可能になります。言語タスクのデザインは、知能システムを動かすためのプログラミングの役割を果たしているといえます。そこで本研究では、データ収集や評価の方法までを含めた言語タスクの分析や設計に取り組むことで、人間の質問に答えたり、人間と対話してタスクを遂行したりするシステムの実現を目指しています。

19-aizawa_image2.png

図2 対話タスクの設計(研究内容)

産業応用の可能性

現在、言語処理システムを訓練したり性能を比較したりするために多種多様なタスクが提案されており、それらを体系的に扱う技術は、今後ますます重要になると考えられます。適用例として、大量の文書を解析してユーザの質問に答える質問応答システム、チャットボットによるオンライン対話システム、定型表現を用いた文章作成支援などがあります。また、本研究で取り組んでいる、文書のレイアウトや論理構造の解析、専門用語抽出、エンティティリンキング、数式などの非言語オブジェクトの検索などの基盤技術は、言語を扱う多くの場面で活用することができます。

関連リンク

相澤 彰子 - コンテンツ科学研究系 - 研究者紹介

Recommend

さらにみる