Sep. 2020No.89

COVID-19と向き合う情報学の挑戦データから新型コロナウイルスをみる

Article

Withコロナ時代のオープンコラボレーションによる研究

河原大輔

Daisuke Kawahara

早稲田大学 基幹理工学部 情報通信学科 教授
1997年京都大学工学部卒業。1999年同大学院修士課程修了。2002年同大学院博士課程単位取得認定退学。東京大学学術研究支援員、独立行政法人情報通信研究機構主任研究員、京都大学大学院情報学研究科准教授を経て、2020年より現職。自然言語処理、知識処理の研究に従事。博士(情報学)。

 2020年3月上旬、新型コロナウイルス感染症(COVID-19)が中国、韓国、イタリアに続き、日本でも広がりつつあった。そうしたなか、NIIの喜連川所長から、JST(科学技術振興機構)CREST・さきがけ複合領域「ビッグデータ基盤」(喜連川総括)の自然言語処理研究者に向けて、COVID-19に対して何かできないかという問いかけがあった。まさに国難、いや「地球難」と言えるような状況にあって、当然、我々としても自然言語処理技術を社会に役に立てたいという思いがあった。こうして、有志の研究者たちの手で、本プロジェクト(p.5~6参照)が立ち上げられることになった。

 しかし、コロナ禍では、リアルに顔を突き合わせて議論することができない。そこでプロジェクト当初から、オンライン・ミーティングにはZoomを、日々のコミュニケーションにはSlackを、コードの共有にはGitHubを用いてきた。

 初期の頃のSlackのログを見返すと、次のような案が挙がっていたことがわかる。
●ファクトチェック
●論文分析:COVID-19関連論文からの知識発見
●各国の母国語で発信される情報の収集、翻訳
●感染者数などの数値データの言語化、変化点検出
●時系列イベント解析
●どこで何が問題になっているかの認識

 これらの案をもとに議論をするなかで、ファクトチェックと論文分析は他の研究グループで取り組みが始まりつつあったため、それ以外で役に立つものを考えることにした。こうして、各国の情報(ウェブページ)を収集、機械翻訳、カテゴリーに分類して、国×カテゴリーという2軸で表示する「COVID-19世界情報集約サイト」の構成案を固めていった。

 このとき議論の焦点となったのが、サイトのユーザーとして、誰を想定するかだった。官僚・政治家、企業幹部、医療関係者、一般市民など、さまざまな議論を重ねたが、結論が出ないまま、まずはサイトを構築し、使いながら検討することとした。

 プロトタイプができたのは3月下旬のことだ。機械翻訳には当初、Google翻訳を使っていたが、大量のページを翻訳するには費用がかかりすぎるため、フリーの「みんなの翻訳」(NICT)に切り替えた。交渉の結果、無制限のアクセスにしていただくことができたので、非常に助かった。

 カテゴリーについては、感染状況、経済対策などの6つを設定し、当初はキーワードに基づく分類器をつくって、データ収集にあたった。しかし、カテゴリー分類および翻訳は自動処理で、精度には限界がある。情報技術の常であるが、ある程度の精度を出さなければ、誰にも使ってもらえない。そこで、5月からカテゴリーをクラウドソーシングで付与することにした。各ページのカテゴリー付与を複数人のクラウドワーカーに依頼し、その結果を集約することで高い精度を得ることができるようになった。しかしこれも費用がかかりすぎることから、結局、2カ月間で終了した。

 その後、これまでのカテゴリー付与のデータを訓練データとして、汎用文脈言語モデルBERTを用いて学習することによって分類精度を向上させることができるようになった。さらに、我々で分担して、誤ったカテゴリーを人手で修正する仕組みもつくった。最後は人海戦術である。

 こうした苦労を経て、6月には本サイトの一般公開に漕ぎつけることができた。それぞれの研究者が得意分野を活かして、役割分担しながら進めたことで、サイトの素早い構築が可能になったのである。なお私は、各研究室から上がってくるモジュールを統合するディレクターの役割を担った。

 今後の課題としては、このサイトを必要とするユーザーへ届けること、また、より効率的に役に立つ情報を発見できるようにデザインを改善していくことなどが挙げられる。

 今回、カテゴリー分類にBERTを用いたが、BERTの学習はpre-trainingとfine-tuningの2段階からなる。pre-trainingは大きな計算コストがかかるが、誰かが1回学習して公開すればよい。これらのリソースは、英語、中国語圏では急速に公開、共有されているが、日本では大幅に遅れており、研究者、研究室で役割分担・連携して、国を挙げて取り組む必要がある。

 まさに今回の我々のようなチャレンジが不可欠だ。このような組織の垣根を越えたオープンコラボレーションが、With コロナ時代にはマッチするとともに、より重要になると感じている。

第89号の記事一覧