「映像と言語の協調で見えた意味解析の地平」第67号

Mar. 2015No.67

映像情報技術が生み出す新潮流

Article

映像と言語の協調で見えた意味解析の地平

映像・画像解析と自然言語処理のタッグで生まれる新しい価値とは？

映像・画像解析の分野に、テキストの解析を行ってきた自然言語処理研究者が参入しつつある。これまで異なったアプローチをとってきた両研究者の共通点と相違点、そして目指すべき方向は何か。自然言語処理の研究に取り組む東北大学の乾健太郎教授、NII宮尾祐介准教授と、NIIで映像・画像解析等の研究を手掛ける佐藤真一教授に、意味解析の過去、現在、そして未来について両者の立場から語り合って頂いた。

乾健太郎INUI Kentaro

国立情報学研究所客員教授 / 東北大学大学院情報科学研究科教授

佐藤真一SATOH Shin'ichi

国立情報学研究所コンテンツ科学研究系教授・主幹

宮尾祐介MIYAO Yusuke

国立情報学研究所コンテンツ科学研究系准教授 / 総合研究大学院大学複合科学研究科情報学専攻准教授

映像・画像を機械が解析する難しさ

乾　まずは映像・画像解析における研究の変遷についてお聞かせください。

佐藤　コンピュータが登場した頃から映像・画像の意味解析に対する要望は大きく、1960年代にはすでに研究が行われていました。人間が簡単にできることから、当時は機械でも容易に行えるだろうと考えられており、人間の視認性をプログラム化しようとしたり、画像に対してルールを定義したりすることで解析が可能とされていたのです。しかし、ほどなくして映像・画像解析はとてつもなく難しいことがわかりました。とてもシンプルな画像でも、途方に暮れるほど多くのルールを定義しないと、意味を解析できなかったのです。そうしたことから80年代半ばには、一度、多くの研究者がこの分野から手を引いたという経緯もありました。

宮尾　その後、どのような転機が訪れたのでしょうか。

佐藤　変化が訪れたのは90年代で、その成果の一例が顔認識です。「どこが目で、どこが口なのかをコンピュータに教え込む」、といった従来の手法をやめ、顔の学習データを大量に収集、とにかく「これが顔だ」と、機械学習によってコンピュータに覚え込ませたのです。そうしたビッグデータ的なアプローチが功を奏し、2000年代におけるデジタルカメラの顔認識機能の礎ができました。その後、森羅万象を認識させるためには、膨大な学習データを整えれば対処できると考え、現在では約2万2,000の概念に基づいて、約1,400万画像を収容するに至っている巨大なデータベース「ImageNet」が2010年に構築され、さらに2012年「ディープラーニング」が登場してきたことで、映像・画像解析は質的向上を遂げました。しかし、解析にあたってその基盤となる、"概念"をいかに選んでいくかが課題として挙げられています。

乾　なるほど。詳しくお聞かせください。

佐藤　画像解析にあたっては、「画像とテキストによるシンボルとの対応づけを行えばよい」と考えられていたのですが、どの概念を選択すればいいのかが難しい。概念数も1万を超えると概念間で親子関係が出てきます。「乗り物」という概念の下には「自動車」や「飛行機」があり、そうした定義もきちんと行っていかなければなりません。また、「鷲が飛んでいる画像」と「ジェット機が飛んでいる画像」など、意味の関連性と見た目の関連性の一致・不一致についても正しく定義する必要があります。そうしたさまざまな概念の定義を整備し、画像認識の精度を向上させるための研究が進められている段階です。その一方で、いまだにコンピュータは未知の画像を与えられて「これは何ですか？」と聞かれるのが最も不得意なのですね。例えば画像だけを見て、それがイヌなのかネコなのかを答えることは難しいのですが、イヌという前提を与えたうえで、「この犬種は何ですか」と聞いた場合にはかなり高い精度で正解を出すことができます。そこに何か活路が見い出せるのではないか、と試行錯誤しています。

乾　そこはディープラーニングの活用によっても難しいのでしょうか。

佐藤　まだまだですね。あるデータセットでは、かなりの精度で画像を解析できるようになっています。ところが、どのような学習により認識できたのかを分析してみると、例えば「家」をうまく認識したのは、実は家の形状自体ではなく、周りの植え込みなどを見て判断していることがわかりました。家の形状は千差万別であり、コンピュータ側からすれば、むしろ植え込みを見たほうが精度の高い答えが出せる、というわけです。つまり、うまくいっているように見えても、本当の意味での解析には至っていないのです。

映像・画像解析と同じ歴史を辿った自然言語処理

宮尾　非常に単純な自然言語側からのアイデアなのですが、言語モデルや、コンテキスト情報の活用といったアプローチはとられていないのでしょうか。

佐藤　コンテキスト情報の活用も方策の1つとして挙げられていますが、それ自体も体系的に整備してつくっていかなければなりません。そうなると、画像解析の研究に留まらなくなってしまう。また、あくまでも画像解析における研究者のホーリー・グレイル、つまり求める"聖杯"は、画像だけを学習データとして与えて、未知の画像から解析結果を出すこと、という意識が研究者の中にあることも否めません。

宮尾　それは驚きですね。自然言語側からすれば、使える情報はなんでも使った方がよい、と考えるのですが。

乾　ちなみに、自然言語側も、同じような歴史を辿ってきていますよね。機械翻訳の黎明期には、第二次世界大戦中にコンピュータを使って暗号を解読できたのと同じアナロジーを用いれば、コンピュータを使った翻訳も簡単にできるだろうと楽観視していました。しかし、実際には非常に困難であることがわかったのです。その後、映像とまったく同じように90年代前半に大規模な言語データを活用するとともに、人間が正解を記述したデータを与えて学習させることで、構文解析や浅い意味解析のモデルをつくったのですが、これが大成功したわけです。さらに近年では、WebやSNSの登場によりテキストデータがものすごい勢いで増えており、それらの膨大なデータからさまざまな言語知識や世界知識を取り出していくという方向に向かっています。膨大な量の単語や文章があれば、その組み合わせにより、人間でいう所の「常識」を言語解析に取り込むことができ、ひいてはさまざまな場面における会話の省略などを機械でも補えるようになるかもしれません。

自然言語解析の進展には映像・画像解析も不可欠

乾　そうした中、つねに我々が歯がゆい思いをしていることがあります。自然言語処理ではシンボルの世界の中だけで知識を得ようとする一方で、人工知能（AI）の分野などで議論されているのが、「シンボルをどのようにして実世界におけるその意味と結びつけられるか」という、シンボルグラウンディングの問題です。シンボルだけを取り扱っても、本当の知能を実現できたことにならない可能性がある。人間の知能は多様な外部関係とのインタラクションの中で培われる、と。例えば、人間の子供も母親に「象がいるよ」と教わり、子どもも「あれが象なのだな」と認識します。そうした外部とのインタラクションの中で、さまざまな知能が培われていく。自然言語処理の側にも、シンボルだけを取り扱うことの是非を心のどこかに抱えており、環境とのインタラクションに知能の本質があるのでは、という議論がつねにあります。そうした外部環境とのインタラクションにおける重要な要素の1つが映像・画像であり、それらと言語をペアにして扱うことで、機械にも人間のような追体験をさせることができ、やがてはAIのような進化へとつなげていけるのではないでしょうか。

宮尾　私も、大量のテキストデータから得られる知識と、画像のようにまったく異なるメディアから得られる知識とでは、それぞれが完全に重なるのではなく、実は違うものを捉えている可能性があると感じています。つまり、テキストからだけでは得られない知識があるのではないか、と。いまや、広範な知識や常識を活用して、コンピュータに意味解析させる段階にきており、言語処理だけでなく映像・画像処理も組み合わせることで新しい知見が得られるに違いない。実際に、互いに活用できるリソースもあります。そのことが、私が映像・画像解析に興味をもったきっかけとなっています。

乾　自然言語側からは、映像・画像解析が次の研究の柱の1つになりうると考えており、まさに宮尾先生がおっしゃったように両者に共通する部分が、これからの研究テーマになっていくのでしょうね。

適切な評価基準をもったタスク設定が不可欠

佐藤　私たちの側からも映像・画像にシンボルを対応づけさせるにあたり、シンボルグラウンディングの問題が挙げられています。映像・画像認識では、映像・画像中の物体や状況などをシンボルに対応付けるところまでが目的であり、シンボルグラウンディングなど意味の問題にはそれほど深入りする必要はないと考えられていました。しかし、学習のためのデータセットを人手で作成する場合の曖昧性、シンボルの語彙数を実用規模にまで拡大してシンボル間の親子関係への対応など、そこかしこに意味の問題が立ちはだかることがわかり、結局、意味の問題に深く立ち入らないとうまくいかない場面が多々現れています。一方で、自然言語処理も、初めにシンボルがあるとはいえ、映像・画像解析側とは逆向きに同じ到達点へと向かっているように感じます。そうした中で、お互いに上手く歩み寄れるような、適切なタスクを設定することで新たに見えてくる知見があると思っています。

乾　例えば、タスク設定として、ラベル付けの問題がありましたね。「これは何の画像なのか」という問いに対して、例えば10種類あるカテゴリ、つまりラベルの中からどれを選べばよいかというものなので、何が正解かは比較的明確です。一方で、キャプションや要約などを生成する問題の場合は、映像・画像、自然言語ともに正しい評価が難しい面もあります。それをどうやって評価するのか。評価の基準がきちんと定められなければ、研究を上手く進めていくことは困難です。また個別技術の追究だけでは成果が出しにくく、研究者のモチベーションも上がりません。

佐藤　おっしゃる通り、映像・画像解析のトップ会議でもその話題が出始めています。研究を次のフェーズへと進めていくためには、適切な評価基準と共通のタスク設定を定めていかなければなりませんね。

宮尾　一方で、例えば「BLEU」という機械翻訳の自動評価尺度があり、最近では、映像・画像解析の研究者の方々も使い始めているようですが、その指標に基づいて正解率を上げる方向へと研究が進んでしまうという懸念もあります。もちろん、そのおかげで機械翻訳の精度も上がっているという側面もありますので、注意深く進めなければなりませんね。

佐藤　同感です。いまやコンピュータで、テキストや映像・画像を含めた外部環境から与えられた情報を認識し、その意味を解析するということが可能になりつつあります。将来的には映像・画像検索や自動キャプション生成をはじめ、監視カメラでのモニタリングや解析など、さまざまな応用例が登場してくると期待しています。そうした中で、先述のように、その過程で生じる個々の問題をブレイクダウンするとともに、研究を確実にステップアップさせていくためのタスク設定を行っていく必要がある。これは映像画像側、自然言語側と両方で取り組んでいかなければならないでしょう。そこには、いずれAI研究も関わってくるのではないでしょうか。楽しみですね。

（取材・文=伊藤秀樹）

第67号の記事一覧

映像情報技術が生み出す新潮流