Dec. 2022No.97

人工知能法学を識るAIと法学が融合した “新学問”

NII Today 第97号

Interview

AIは司法試験をどこまで解けるのか(COLIEE)

法律言語解釈の現状と課題

人工知能(AI)は、はたして司法試験を読み解くことができるのか――。 法学分野へのAI技術の応用に向けての挑戦として、2014年以降、毎年開催されている法律文書処理の国際コンテストが「COLIEE (Competition for Legal Information Extraction and Entailment、通称コリー)」である。 その概要と、実施のなかで見えてきた課題などについて、COLIEEの運営に関わってきた 北海道大学の吉岡真治教授と静岡大学の狩野芳伸准教授に話を聞いた。

吉岡 真治氏

YOSHIOKA, Masaharu

北海道大学大学院
情報科学研究院情報理工学部門 教授
同大創成研究機構
化学反応創成研究拠点 教授
学術情報センター・国立情報学研究所助手を経て北海道大学へ。同大工学研究科助教授などを経て現職。専門は情報検索への知識処理技術の応用 ,文書データや Linked Open Dataからの知識獲得とその活用についての研究に興味を持つ。

狩野 芳伸氏

KANO, Yoshinobu

静岡大学
情報学部行動情報学科 准教授
東京大学特任研究員、科学技術振興機構さきがけ研究者(国立情報学研究所外来研究員)などを経て現職。専門は自然言語処理の基盤技術とその応用。より人間に近い言語処理モデルの構築と、法律・政治・医療・対話など各分野での活用についての研究に興味を持つ。

――最初に、COLIEE の紹介と、両先生の研究テーマ、COLIEEに関わるようになったきっかけを教えてください。

狩野 COLIEEは司法試験民法短答式問題の自動解答をテーマとして、国際コンテスト形式で開催しているものです。これは簡単に言えば「お題を出して、それに対し広く世界からチームで参加し、問題を解いて性能を競う」というもの。その発表を毎年、国際会議で行っています。
 現在のCOLIEEには4つのタスクがあり、それぞれ違うお題を解く形になっています。そのうち、タスク3、4が元からあったもので、民法短答式試験の自動解答です。その年の最新の問題を本題とし、併せて正解付きの過去問と法律文書そのもの、民法の条文を提供、それらを使って問題を解いてくださいというのが出題の形式になっています。これは日本語の文章とともに、英語翻訳したものも提供しています。
 2018年からはカナダの判例データベースを使ったタスク1、2が加わり、カナダ・アルバータ大学のRandy Goebel先生たちが担当しています。これは言葉の違いだけではなく、日本の成文法/カナダの判例法2という、法律そのものの成り立ちの大きな違いがあります。

大企業の十年先に挑戦する

 私は、学部時代は物理学科にいたのですが、修士課程以降は自然言語処理の研究を行っており、その後国立情報学研究所(NII)在籍時代も、社会科の自動解答や医療言語処理など、いろいろな分野の言語処理をやってきました。そうしたなかには、「人狼ゲーム」3を自動プレイさせる「人狼知能」といったものもあります。また、NIIが他の機関・大学と共同で進めた「ロボットは東大に入れるか」4という、試験問題に自動解答させるという点ではCOLIEEと共通する人工知能プロジェクトに関わっていたこともあります。そうした背景があり、COLIEEに立ち上げ時から関わることになりました。
 当時「司法試験をAIに自動解答させる」というテーマは非常に難易度が高く、成果が出しづらいこともあり、積極的に「やろう」という人はあまり多くなかったのではと思います。しかし私としては、すぐに成果が出るようなものは資金や人数で大企業にかなわないので、5年、10年かかる難しさに挑戦できる本質的なもののほうがいいと考えて参加したのです。

吉岡 私は学生時代には精密機械工学科で、その後大学院にかけ、設計学を学んでいました。これは、「人はどうやってモノを作るのか」「"設計する"とは何か」を研究するもので、特に「設計における知識とは何か」をテーマとしていました。 その後、1996年にNIIの前身組織である学術情報センターに入り、文献情報検索に興味を持つようになりました。そこで、「開かれた世界からの情報を取り込むようにできれば、面白いことができるのではないか」と考え、情報検索とAIを結びつけるといった研究に関わることになったのです。
 その情報検索という見地から2016年は参加者として、2017年以降はオーガナイザーとしてCOLIEEに参加しています。
 現在のCOLIEEではタスク3は与えられた問題文に対し、民法条文から関連する条文を探し出す情報検索タスク、そしてタスク4が問題文にYes/Noの二択で回答する質問応答タスクとなっていて、私は主に解答に至る前半部分――「どの条文が関連しているか」というタスク3の情報検索の部分を担当しています。

法律言語の自動処理の難しさ

――自然言語処理という研究分野で、COLIEEが担っている意味、このテーマが持つ難しさとは何でしょうか。

狩野 言語処理も研究者が増えてどんどん研究が進んでおり、いろいろな課題に関して処理の精度も上がっているのは確かだと思います。しかしその一方で、困難な問題は依然残っています。
 現状、自然言語処理の難しいポイントは主に3つあると思います。1つは、自然言語にはあいまいな部分や省略が多く、特に話し言葉で顕著です。2つめは、人間なら当然知っているだろうことが前提で話は進むのに対して、AIにはその"常識"がないこと。これは現在のCOLIEEでの司法試験の自動解答で、大きな課題になっています。3つめは特に法律言語の処理の場合に言えることですが、論理というか、"一貫した物事の見方による処理"というのが、実はなかなか難しい。
 法律の言葉は自然言語の中でも、理路整然として曖昧さを極力廃しているので自動処理に向いているのではと思う方もいるかもしれませんが、実際には、書かれていないこと、言外のことは多いのです。その一方で、法律分野はいままさに自動化による支援が強く望まれている分野でもあります。
 実用的な自動化を目指すにあたっては、まずは何が課題で、何に挑戦すべきかを明らかにすることが重要です。そうした課題をあぶり出すために、様々な角度からより難しい問題を提供する、というのが、COLIEEの一つの役割かと思っています。

吉岡 COLIEEのタスクの設定は、先述のように、与えられた課題にどんな条文が関連しているかを探し出すプリプロセスと、実際に解答を選択するプロセスの2段階に分かれています。もともとは課題の提示から解答まで一気通貫に行うシステムを想定して始めているのですが、実際にやってみると、最初の情報検索の部分の精度がパッとしない。その段階で選択を間違えてしまうと、それを元に導き出される解答の正誤に意味がなくなってしまいます。
 そこで、まずは前段として情報検索を行う。そして、「もしもそこに理想的な情報検索システムがあったなら」という前提のもとで正しく判断ができるかどうかを後段で試す。そうした2段階の設定となったのです。
 さらに言うと、その前段における「関連する条文」というのもなかなか難しい概念です。少なくとも、「絶対この条文は入ってなきゃいけない」ものは揺るがないとしても、それを補足する他の条文は、どれくらいの範囲まで必要なのか。実は民法の条文には、ある物事の規定を、別の物事に対して規定した別の条文から「準用」するよう指示したり、あるいは別の条文で定めた複数の条件を満たすよう指示していたりというふうに、芋づる式に関連していくことがあります。一方で「未成年」という言葉に対して、毎回「年齢十八歳をもって、成年とする」(民法第4条)という条文を持ってくるのはさすがにやりすぎだろうと思います。そのさじ加減が難しい。

「深層学習後」のCOLIEEはどこを目指すか

――これまで8年間、COLIEEを実施してきた成果と課題、そして今後の展望についていかがですか。

吉岡 タスク3、情報検索の部分の流れについて説明します。やはり、この8年間で最も変わったのは、深層学習の考え方の台頭でしょう。
 そこで、まずは「深層学習以前」についてお話したいと思います。そもそもCOLIEEで扱っているのは試験問題ですから、最終的には曖昧性なく答えられるように設計されています。とはいえ、その中身は「この条文を知っていますか」レベルの質問もあれば、もう少し具体的な事象を使った質問もあります。やはり前者の問題は答えるのが簡単で、情報検索の立場から言えば、言葉も似たようなものが多く使われますし、文章の類似度も高い。一方で後者については、少し表現を変えてみるとか、単語を類義語に置き換えるとかいった試行が行われてきましたが、なかなか上手い解決策とはなっていませんでした。
 そうこうしているうち、2010年代末になると深層学習が実際に"使える"レベルになってきた。例えばBERT5のようなプレトレーニングされた言語モデルも登場しました。それまでは全てのトレーニング・データを研究者自身が作らねばならなかったのですが、事前に大量の文章を読み込んだうえで類似した単語や概念を学習するプレトレーニングモデルが登場し、比較的少数のトレーニングデータで精度の良い解析が可能となり、深層学習が身近なものになったのです。これによって、意味的な類似性を考慮した言語処理をしようというアプローチが可能になりました。もちろん中には「まさに一致した単語そのもの」でマッチングしたほうがよいケースもあり、それらを組み合わせることで、「深層学習以前」の難しい問題にも、それなりに手が届く可能性が見えてきたのが近年の動きかと思います。
 いずれにせよ、情報検索の部分に関して言えば、「関連条文を取ってくる」というところでは、少なくとも「何をしなくてはいけないか」「何が難しいか」はかなり見えてきたと思います。

狩野 後半のタスク4、関連条文を問題文に当てはめてYes/Noの解答を導き出す部分でも、今の吉岡先生のお話と似たような流れになっています。

AIの2択の正答率は70%程度

深層学習以前は、おおむねルール・ベースでした。古典的な言語処理で、単語の区切り、構文、個々の単語を比較し、一致度が高ければ「合っている」と判断する手法で解くのが、最も良い結果を出していました。その後、深層学習が登場すると、相当大規模な学習をしたものであれば、より良い結果を出すようになってきました。
 現在ではおおよそ70%程度の正答率が得られるようになっています。ただし、最終的な回答は二択なので、仮にサイコロを振って答えを決めても、確率的には50%の正答率は確保できてしまう。そこからプラス20%はだいぶ頑張っているように思えるかもしれませんが、実際には、容易に判断でき正答にたどり着ける問題も、毎年10%くらいはあります。
 次の局面の話として、「説明可能なAI」というキーワードがあります。導入が進んできた深層学習の手法ですが、これは「中で何が起きているか」が判りづらいところがあります。理由は説明できないままに結果だけ出てしまう、そのような状態で裁判の自動支援システムを作り上げたとしても、理由なく結果だけ渡されて現場がそれを受け入れられるはずもありません。「説明可能なAI」は、現在、他の応用分野においてもホットなトピックですが、法律分野においてはとりわけ欠かせない要素です。これをどう評価に反映するかは現在まさに悩んでいるところで、タスクの設計も工夫しなければいけないのかなと思っています。例えば現在はYes/Noの二択ですが、もう少し機械に対して意地悪な質問に変えたい。Yes/Noだと適当でも半分は当たってしまうわけですが、もう少しその判断の中身も聞けるようなタスクはできないものかという思いがあります。
 今後についていえば、できれば参加者、それも国内の参加者がもっと増えてほしいと思っています。近々、民法の過去の判例を公開しようという動きがあり、もしも実現すれば、利用可能な膨大なデータが入手できるので、それを使った自動処理をやってみよう、挑戦してみようという人も一気に増えるのではと期待しています。

[1]COLIEE
 COLIEE2022のサイト。https://sites.ualberta.ca/~rabelo/COLIEE2022/

[2]日本の成文法/カナダの判例法
 成文法は、立法機関が制定する法律など、文章として書かれた法律を基準とする考え方。一方で判例法は、裁判所の過去の判決の積み重ねを基準とするもの。

[3]人狼ゲーム
 普通の人々の中に混じった嘘つき、あるいは村人の中に潜んだ人狼を、会話を通して当てるゲーム。

[4]「ロボットは東大に入れるか」
 NIIを中心に企業や大学などの複数の組織が共同で実施したプロジェクトで、人工知能「東ロボくん」に大学入試問題の自動解答を行わせるもの。

[5]BERT
 Bidirectional Encoder Representationsfrom Transformers。2018年10月、GoogleのJacob Devlinらの論文で発表された、自然言語処理における代表的な深層学習手法の一つ。

(取材・構成 川畑 英毅)

記事へのご意見等はこちら
第97号の記事一覧