イベント / EVENT

平成27年度第4回 Q&A

第4回 2015年11月26日（木）

私たちは何を知っているのか
川添愛（国立情報学研究所　社会共有知研究センター特任准教授）

講演当日に頂いたご質問への回答（全32件）

※回答が可能な質問のみ掲載しています。

・根拠と仮説　の話は、日本語に限った話でしょうか。英語の場合、どうでしょうか。
・日本語以外への言語でも、今日のようなお話はあてはまるのでしょうか。

はい、日本語に限った話ではなく、おそらくどの言語にも共通した話です。もともと含意関係認識タスクは英語を対象として始まり、今では多くの言語を対象にして取り組まれています。

この場で、もし私が何か質問をして、最後に「・・・ですよね、川崎先生？」と言った時、川添先生のことを言い間違えたと人間は推論しますが、このような"錯誤"については、機械には難しそうですが、いかがでしょうか。

どれほど真面目にやるか、またどれほどの範囲の「言い間違い」を対象とするかで難しさが変わってくる気がします。挙げていただいた例では、1) 「川崎先生」が第三者ではなく私を指示している、2) 川添と川崎は間違えそうなほど十分似ている、3) 私の別名（旧姓やペンネームやあだ名）に「川崎」というものがない等の点が認識できれば、googleの「もしかして」機能のように「間違いかもしれませんよ」と教えてくれる機械ができるかもしれません。

しかし、たとえば似たような物の間の言い間違いで、さらに指示対象が明確でない場合なんかは非常時難しくなりそうです。たとえば台所で味噌汁を作っている人から「引き出しの中からしゃもじを出して」と言われたとき、「おたまを出して」の間違いではないのか、と推測することなどです。人なら状況からある程度推測して「おたまじゃないの？」と聞き返しそうですが、機械にこういう推測ができるようになるには、「味噌汁を使っているときは、しゃもじよりもおたまを使うことが多い」のような常識や、上に似た間違い例が大量に必要になりそうです。

・日本語と英語ではどちらが機械に理解させやすいでしょうか。
・日本語と外国語で意味認識しやすいのはどちらですか。
・外国語の中で、解析の精度は日本語が比較的高いですか。他の言語の方が高いなどありますか。（分析法や辞書の充実度や質的な完成度）

「理解しやすさ」「意味認識のしやすさ」「解析の精度」を、具体的にどのような指標で捉えるかによると思うので、はっきりしたことは言えません。ただ、書き言葉で言えば、日本語は英語と違って単語単位の区切りが入らないので、まずはそれを区切るための形態素解析をする必要があり、一手間多くかかります。しかしその精度は高いです。
全体に、英語を対象とした研究をする人が多いので、今のところは辞書などのリソースや解析器など、英語が一番充実していると思います。

言語学の面白さは何ですか。言語により、言語学は変わりますか。（英語、日本語ほか）

個人的には、自分が無意識に持っている知識の多さに気付くことができる点が面白いと思っています。この辺りはWIRED vol.19（http://wired.jp/magazine/vol_19/）でのインタビューで話していますので、よろしければご覧いただければと思います。
対象言語が変われば言語学は変わるか、という問いに関しては、yesでもありnoでもあります。例えば個別言語の記述（未知の言語の調査など）に関しては、それぞれの言語独自の体系を構築する必要があるかと思います。他方、人間の言語に普遍的な特徴を捉えようとする場合、同一の理論的枠組みで言語の多様性を説明しようとします。

・日本語と例えば英語の場合での違いは、ありますか。（推論やあいまい性の差など）
・言葉による違い、含意関係認識タスクとしてどのようなものがあるのでしょうか。ここからわかる日本語の特徴とは何でしょうか。

よく知られている日本語の特徴は、ゼロ代名詞が許されることでしょうか。たとえば日本語では「君、この本読んだ？」と聞かれて「読んだ。」と答えることができますが、英語では原則として、「Read.」のような主語や目的語を省略した答えは許されません。
その他、推論に影響する日本語の面白い特徴としては、「はーが構文」（「象は鼻が長い」）や、とりたて詞（「も」「さえ」「だけ」「しか」等）があります。これらは日本語に関する長年の知見が効いてくる側面だと思います。

会話においては、文末のイントネーションのようなパラ言語的要素も、意味理解の手がかりとして用いられている。（疑問と平叙文での高低の違いなど）将来的にロボットがこのような情報を参考にする時は来るのでしょうか。

あまり詳しくないですが、イントネーションの情報はすでに利用されているのではないかと思います。少なくとも言語の生成に関しては、ロボットの発話を自然にするために、イントネーションの情報が利用されています。

「じゃない」は、語尾の上げ下げが他人の理解をうながしているが、AIなどではそのへんもプログラムされているのですか。例）「ばか」　声調により、ののしっている場合、親しみを表している場合がある。

詳しくないので適当に予想して答えます。語尾の上げ下げぐらいはわかると思いますが、講義中に挙げたどの「じゃない」なのかという特定までは至っていないと思います。（そもそも、講義中に挙げた機能語の用法分類は言語処理コミュニティで共有されていないと思います。）「ばか」の声調に関してもよく分かりませんが、明らかに罵っている場合とそうでない場合は区別できそうですが、ヘラヘラ笑いながら馬鹿にしている場合と親しみを込めている場合は、音声だけでなく文脈や表情の情報が必要な気がします。

・ロボットはジョークを理解できるようになるでしょうか。（あるいは）そのようなロボットはすでに存在しているでしょうか。笑うロボットについて研究している人はいますでしょうか。
・スライド　p.43-48あたりのアノテーション済みコーパスに関して、ロボットの教育を進めていくと、ロボットが駄洒落や冗談を笑える様になりますか。（例）一休さんのとんち話　"この橋渡れません"　"この端渡れません"と同音異語にずらして、落としどころにする。人間は腑に落ちたり、笑ったり出来るが、ロボットがこれをわかるには、今回のご講義の方法で解決出来るのでしょうか。"とにかく知識を集め"れば何とかなりますか。

「機械による笑いの理解」についてはさまざまなレベルがあると思いますが、コメディや漫才、コントの動画などを見て人間が笑うところで笑う機械は、今の技術の延長上でできてもおかしくないと思います。例えばドリフ大爆笑や吉本新喜劇のような、客の笑い声が入っている動画を大量に用意し、「笑う部分」をアノテーションして機械に学習させることなどが考えられます。しかしこれはあくまで「人間と同じ状況、同じタイミングで笑う機械」であって、本当に面白さがわかっているとは言えないと思います。
このレベルを超えて機械が人間と同じように笑いを理解する（例えば、少なくとも、人間が笑う理由が機械に分かる）というのはきわめて難しいと思います。「笑い」については「常識からの逸脱によって起こる」という説がありますが、これが正しいとすれば、何がどう逸脱しているかを知るために常識や文化などに関する膨大な知識が必要になります。また、その逸脱が笑えるものなのか、そうでないのかを判断するのも難しそうです。
ダジャレや冗談の生成に関しては、講義の際に宮尾先生が「漫才を機械に生成させる研究がある」と補足してくださいました。改めて調べましたのでリンクします。

http://www.nadasemi.ii.konan-u.ac.jp/robot_manzai/

これは二体のロボットに漫才をさせるというものであるようです。披露したネタに対して人間が笑うかどうかというデータを蓄積して、そこからの学習でより笑えるネタを生成するなら、学習に基づいて笑えるデータを識別する機械の一種と見ることができそうです。

私達のような素人でもコーパスやオントロジーの構築をお手伝いしたり、自作できたりするのでしょうか。

オントロジー、コーパスの自作は自由です。ただし、コーパスに関しては、元データが第三者の著作物である場合、公開や共有の際に著作権者の許可を得るなど法的な手続きが必要になります。オントロジーについては、オントロジー作成ツール（法造など　http://www.hozo.jp/hozo/）を使えば、一人でも少人数でも作れます。リソース作成の求人については、研究室が直接作業者を募集する場合と、作成業務を請け負う会社を通じて作業を依頼する場合とがあります。

ビッグデータで使ってやれば機械の言語理解は進むのでしょうか。

ビッグデータは言語理解に必要な知識の獲得に大いに利用されています。講義でも紹介した同義語や上位概念・下位概念といった単語間の関係、動詞とそれに係る名詞の組み合わせ、また常識の一部（「雨が降る→地面が濡れる」などといった因果関係や、「王と女王」と「男性と女性」といった関係の平行性など）もビッグデータを活用して獲得する試みが多くなされています。ただ、講義でもお話ししたように、何を「同義語」と見なすか等といった知識の大枠の定義や、大量に入り込んでくるゴミへの対処は、考えなくてはならない問題として残ると思います。

・Ⅱについて、形態素解析を行ったり、否定を考慮したりとルールベースの戦略の紹介がありました。このルールをコンピュータに自動で行わせる（決定させる）ような取り組みはあるのでしょうか。この結果、どんな知見が得られたのでしょうか。　＊画像分野では、Deep learning （ニューラルネットワーク）により、特微抽出を自動で行っていますが、言語分野においても同等のアプローチが有ると予想しています。
・Deep learnig の説明では、自動的にコンピュータが知識を集め成長するということが多いのですが、それは例えばパターン認識の世界であって、自然言語処理の様な汎用性のあるものでは難しいということでしょうか。

言語処理分野でも、Deep Learningは幅広く応用されています。単語に対して「名詞」「形容詞」などの品詞ラベルを付けたり、固有名詞や用語の抽出したりするなどといった基本的なタスクでは、英語において従来の手法に匹敵する精度が出ていますし、感情分析などより応用的なタスクにも適用されています。とはいえ、今のところは画像や音声ほどの急速な発展を見せているとは言えません。現状については以下の文献が詳しいのでご覧ください。
http://www.orsj.or.jp/archive2/or60-4/or60_4_205.pdf

このジャンルの研究で残されている主な課題はどのようなものがありますか。質の良いコーパスが出来れば完了ですか。

質の良いコーパスの存在は、言語処理の研究にとっては前提であって、ゴールではありません。質の良いコーパスを大量に作ること自体きわめて難しいことですが、もしできたとしても終わりではありません。できあがったコーパスからどのようにして、効率的に知識や処理方法を学習するかという問題があります。そのために、どのような学習方法を使うのが良いか、またコーパスのどのような特徴に着目すべきかなど、多くのことを考慮する必要があります。
またDeep Learningによる画像認識などが急速に発展しているのを見ると、あたかも大量のデータさえあればあとは機械が勝手にやってくれるような気分になってしまいますが、現行の画像認識が「画像に表現されている物体を識別する」という比較的明確なタスクであるのに対し、言語行動の場合はそもそもどういうタスクを積み重ねていけば機械がより人間に近づけるのかがいまいちよく分かっていないという問題があります。すでに提案されているタスク、およびまだ存在すら認識されていないようなタスクを含めて、非常に多様なタスクに取り組む必要があると思いますが、それぞれに対して必要となるデータも変わってくるので、データの作成・収集の問題は今後もつきまとうことになると思います。さらに問題なのは、そもそもどういうデータを用意したら機械学習で達成できるのか分からないタスクがたくさんあることです（むしろその方が多いと思います）。そういった意味で、まだまだ考えなくてはならない課題は山積みと言えます。

「根拠　→　仮説」でそもそも根拠が正しいかどうかを判断することは、また別の話だと思いますが、それは先生のスコープ外ですか。

根拠から仮説が推論されるかどうかを判断するのは、根拠が正しいような世界において、そこで仮説が正しいかどうかを判断することです。他方、根拠そのものが正しいかどうかを判断することは、根拠の文が今我々が生きている世界（実世界）でそれが正しいかどうかを判断することです。実世界の状況を反映した種々のデータから文の真偽判断をするというタスクは後者にあたります。東ロボのセンター世界史・日本史の正誤問題への解答などはその一例です。

トゥールミンモデルと対比させたならば、次のようでしょうか。根拠　⇒　Data, 仮説　⇒　　Claim, 前提　⇒　Warrant 　でしょうか。

まず、ディベートなどで人が議論するときに使う「根拠（Data）」と「主張（Claim）」を、含意関係認識タスクにおける「根拠 (premise）」と「仮説（hypothesis）」の関係になぞらえて考えることが、どれほど適切かわかりません。前者においては、根拠と主張の間の関係が自明でない場合がほとんどであると思います（だからこそ、根拠への肉付けが必要になるのだと思います）。対して後者は、普通の一般常識を持った人が、「根拠の中にすでに仮説が含まれている」と判断するかどうかを問題にしています。つまり、誰かが根拠を口に出した時点で、仮説も言ったことになるかどうかを判断することが焦点となっています（よって、後者では、根拠と仮説をつなげるとしばしば冗長な文章ができてしまいます）。
以上をお断りした上で、講義でご紹介した「前提（presupposition）」がトゥールミンモデルのワラントに当たるかどうかを考えてみますと、おそらく当たらないと思います。むしろ、オントロジーの話で導入した隠れた世界知識（「太郎はチワワを飼っている」から「太郎は犬を飼っている」を推論する際に使う「チワワは犬である」など）の方が近いのではないかと思います。

2045年頃に、コンピュータが人間の知性を上回るという話について、どうお考えでしょうか。

「人間の知性」をどう考えるかによると思いますが、自然言語の理解、使用と、それに伴う行動に関しては、機械が人間のそれをきわめて正確に近似できるようになるのは難しいという印象を持っています。機械にそれができるようになり、なおかつ、人間がそのことを適切に検証・評価できるようになるためには、まずは人間の言語使用そのものについての理解が十分深まらなくてはなりませんが、その進み具合は、今頻繁に話題になっているハードウェアやパターン認識技術の進化の速度に比べて非常に遅いものです。そういう意味で、2045年というのは早すぎる気がします。

東ロボは、どのように（センター試験の国語の文脈　→　推論、言い換え）問題を解いているのですか。

これまでのところは、テキストの表層的な特徴に基づいて問題文と選択肢を比べ、問題文と最も近い選択肢を選ぶという手法で解いています。詳しくは佐藤・松崎研究室（名古屋大）のHP等をご覧ください。http://sslab.nuee.nagoya-u.ac.jp/?page_id=1435

機械はオントロジーを自動構築できますか。

オントロジーの自動構築の研究は盛んに行われています。講座でご紹介したような、文中のパターンを利用して概念間の関係を取得する（「AなどのようなB」から上位・下位関係を取る、「AすなわちB」かだ同義語を取るなど）方法、また既存のリソース（Wikipediaなど）からオントロジーを獲得する方法などが提案されています。少し前から盛んになっているword2vecによる概念間関係の自動取得などを利用する方法などもありそうですが、まだあまり見たことがありません。近年の動向については以下の本の第3章が詳しいので、ご覧ください。
来村徳信（編）『オントロジーの普及と応用』第3章　オントロジー学習の現状と動向（森田武史、山口高平）

オントロジーを使って将来どんなことが実現できるでしょうか。

個人的には、今できない何かがオントロジーによって魔法のようにできるようになるという印象は持っていません。むしろ、今あるタスク、あるいは今後出てくるタスクの多くにおいて、精度を上げるあるいはその質を保証するための不可欠な基盤として使われていくことと思います。

この分野の研究者にとって、Googleという会社（の技術）は、どのような意味を持ちますか。MlyPCにGoogleのIMEを入れたが、固有名詞の漢字かな変換　はすばらしい。

自然言語処理にとって革新的な技術をもたらしている会社だと思います。近年では特に、Googleの研究者が提案したWord2Vec（単語をベクトル化する手法の一つ）が幅広く応用されています。

コーパス（例えば少納言）を利用する場面はどんな時ですか。何のために少納言を作ったのですか。

私は、語の用例を調べるのに少納言を使うことが多いです。新聞、雑誌、書籍、ブログなどさまざまなジャンルから用例が見つかるので便利です。

オントロジーやコーパスは、我々の日常生活での会話を改善させる役割を果たせますか。

オントロジーには、人による世界の捉え方のうち、暗黙の部分を明示的にすることで、人と人との間の情報共有を支援するという役割があります。例えば生物学・医学分野では、用語の定義や統一的な使用のためにオントロジーが利用され、研究者間のコミュニケーションを支援していますし、また近年では要求分析などにも応用されているようです。

アノテーション済みコーパスとは、昔云われていた構造化辞書と同義なのでしょうか。違いがあるとすれば、どのようなところでしょうか。

構造化辞書がどういうものを指しているのかよく分かりませんでした。EDR電子化辞書のようなものと考えてよろしいでしょうか？　アノテーション済みコーパスは、メタデータがアノテーションによって付加されているという意味ではEDRのような辞書と共通していますが、必ずしも辞書のように構造化された情報がまとめられたものだけではなく、生の文章（新聞、ニュース、ブログなど）を元に作成されたものも多く含みます。

IBMのワトソンはAIですか。会話プログラムにすぎない。ニュートラルネットは？

IBM Watsonは、自然言語の質問を受け取って、その意味を手がかりにして答えを返しているという意味で、意味を考慮しない会話プログラム（いわゆる人工無能）とはかなり違うと思います。Watsonを人工知能と呼ぶかどうかは人工知能の定義によると思いますが、IBMでは人工知能と呼ばないようにしているようです。詳しくは以下をご覧ください。https://newspicks.com/news/1160563/body/

・「単語をベクトルで表現する」とはどういう意味ですか。
・単語をベクトルで表現するとはどういうことでしょうか。

ベクトルは高校数学で習う通り、「向き」と「大きさ」を持った量で、（1, 4)や(45, 79, 102)のような数字の組として表されます、単語をベクトルで表すというのも、個々の単語をそのような数字の組に置き換えるということなのですが、どういう考え方を基準にして置き換えをするかによって、さまざまなやり方があります。例えば、注目している単語がどの文書に何回出てきているかを基準にする（例：（文書Aに出てきている回数, 文書Bに出てきている回数, 文書Cに出てきている回数, .....)）、ある文書の中でその単語と一緒にどんな単語が現れているかを基準にする（例：（aが現れているかどうか(1 or 0), amが現れているかどうか（1 or 0), anが現れているかどうか（1 or 0), asが現れているかどうか, atが現れているかどうか, ...., zebraが現れているかどうか, Zurichが現れているかどうか)）などといった方法があります。今盛んに使われているword2vecという方法では、原則として前後5単語にどんな単語が現れているかを基準に単語をベクトル化します。

自動翻訳との関係について話題がありますか。

料理や感染症などといった特定の分野に限った翻訳にオントロジーを利用する話はよく見ます。Google翻訳などといった統計的機械翻訳ではあまり使われていないような印象です。

人と人との間でも誤解が起こることを考えると、ロボットとロボットの方が誤解が生じにくく、一台教えればロボットの言語認識の方がバラツキが少なく誤解が生じなくなるのではないでしょうか。

コンピュータ言語ではなく自然言語を使うやりとりについてのご質問だと理解した上でお答えします。まず「誤解」について、「もともと複数の意味に解釈できる曖昧な言語表現に対して、話し手の意図した意味と違う方の意味を聞き手が選択する行為」であると考えてみます。そう考えると、機械同士で誤解が生じないようにするには 1)すべての表現を厳密に定義して曖昧性を完全に排除した自然言語を与える、2)機械が言語に対してできる処理を限定しておく、などといった方法が考えられますが、いずれの場合も「機械が自然言語を理解している」と言えるのか疑問です。

スコープの曖昧性、前提表現スコープ（　　？）について、「太郎はまた[　　　　　]へ行きたがっていた。」という根拠は、スコープの違いで仮設が異なるということでしたが、[ ]へプロットする場所の単純な違いだけではなく、規模の大小によっても仮設は変わってくると思うのですが、どうなんでしょうか。スケールで言うと、宇宙＞フランスみたいに。

「太郎はまた〜へ行きたがっている」の例は、目的地への行きやすさ（距離や手間など）によって目立つ解釈が変わってくるというものだったので、目的地の規模は直接的には関係ないかもしれません。ただ、文を変えて「横断したがっている」「征服したがっている」などにすると、規模の大小が効いてくるように思われます。

Scope を正解に判別することは可能でしょうか。むしろ、単独分（or文節）で決定するのではなく、複数のScope 候補を残しながら、文と文の間の接続関係から、各候補の確率を変更していくのでしょうか。

ある表現のスコープに曖昧性があること、また構文解析によってスコープ範囲の候補が正確に特定できていることを前提にお答えしますと、ご指摘のとおり、単独の文を見ただけでスコープを決定するのは難しいと思います。文間の接続関係も手がかりになるかもしれませんが、おそらくそれだけでは足りず、常識なども考慮に入れる必要があります（講座の中で示した、「パリよりも宇宙の方が行きにくい」など）。

今回の説明と実際の脳の動きは関係あるのでしょうか。

直接は関係ありません。もちろん、全く関係ないことはありませんが、脳の話につなげるにはまだかなり距離があります。

書記言語の場合、句読点がない文章において、様々な解釈が生じる。それでも人はだいたい予想して（しかも的確に当てはめて）やりとりしている。ロボットにも人と同じように予想しながら会話できるのかという問題の研究もなされているのでしょうか。

表現の修飾先の決定や、講座内でお話ししたスコープ範囲の決定などに関係したご質問であると想定してお答えします。文の構造を決定する構文解析や係り受け解析では、文法的に正しいと考えられる文構造の候補を複数出すことができます。が、その文をとりまく話の流れや状況を考慮して、もっともふさわしい意味を表す候補を選択することについては、まだそれほど確立された方法はなく、取り組んでいる研究者もまだ多くないように思います。私の知っている範囲では、山梨大学が否定のスコープの特定に取り組んでいます。

コンピュータの能力の制約から、文字列という抽象化された対象により、コンピュータに言語を理解させようとしてきた。しかし、単語と実物とを結びつけることは、自ずから限界があった。今日、ディープラーニングによって、徐々にではあるが、画像の認識ができるようになった。この結果、対象物（実物）と言語がリンクされ、今後、自然言語の推論に関する研究が、新しい時代を迎えると思いますが、いかがですか。

画像情報と言語を結びつけて学習させる試みは、Deep Learningを応用した研究の中でもとても面白いものだと思います。推論に関して言えば、写真や動画に一緒に写り込んでいるもの同士の関係（本棚と本、本と「読む」、雪山とスキーヤーと「滑る」）を学習することで、より推論に役立つ知識源が作れるのではないかと期待しています。

職場でベテラン職員が大量退職するため、若手への技術継承が課題となっている。その際、言語化しづらい暗黙知をも言語化していく必要があるのですが、何かヒントをもらえないでしょうか。

私自身は詳しくないのでご質問にどれほど関連があるかわかりませんが、製造業での意思決定に関わる情報をオントロジーの形で集積し、企業間の連携や標準化などに役立てようという取り組みがあります。詳しくは、以下の本の第10章をご覧ください。
来村徳信（編）『オントロジーの普及と応用』第10章　ものづくり情報連携におけるオントロジーの応用（西岡靖之）

shimin 2015-qa_4 page2506