Sep. 2020No.89

COVID-19と向き合う情報学の挑戦データから新型コロナウイルスをみる

Interview

ビッグデータ解析でコロナ社会の課題解決を

外出自粛率や人の接触頻度を「見える化」する

情報学や物理学で培ったビッグデータ解析や大規模シミュレーションの知見を活かして、経済や社会の課題解決に挑むNIIの水野貴之准教授。「計算社会科学」が専門のデータサイエンティストとして、携帯電話キャリアや全地球測位システム(GPS)などのビッグデータを解析し、新型コロナウイルス感染症対策に役立てるべく、積極的に情報発信をしている。さらに、AI(人工知能)を使って、時々刻々と変わる感染状況や、国によって異なる感染の広がりを捉えようと奮闘中だ。

水野貴之

Takayuki Mizuno

国立情報学研究所 情報社会相関研究系 准教授
総合研究大学院大学 複合科学研究科 准教授

山本佳世子

聞き手Kayoko Yamamoto

日刊工業新聞社 論説委員兼編集委員
1990年東京工業大学大学院修士課程修了後、日刊工業新聞社入社。科学技術、化学業界の担当を経て、「大学・産学連携」の専門記者で20年弱。同分野の研究で東京農工大学にて博士(学術)。文部科学省記者クラブ常駐。

データ解析結果を政策立案に役立てるために

─携帯電話から得た位置情報や購買履歴などのビッグデータを解析し、人の流れやビジネス活動をリアルタイムに可視化する研究が、ここ数年とくに注目されています。新型コロナウイルス対策への活用にも期待が集まっていますね。

水野 データを集めるベンダーは携帯キャリアの民間企業、データ解析の結果をもとに政策を決めるのは国や地方自治体、その間にいて、ビッグデータから必要なデータを加工して意味のある有用な情報を抽出する役割を担うのがデータサイエンティストです。コロナ禍では、このデータサイエンティストが不在の状況から新型コロナ対策に向けたデータ活用がスタートしたため、最初は混乱がありました。
 データ解析自体は他分野でデータを扱う人にも可能ですが、正しい手法で解析しなければ、恣意的な情報やバイアスのかかった情報が公表されてしまう危うい面があります。データについてもそれぞれ癖があり、とくに公的統計に活用する際には注意が必要です。たとえば携帯キャリアの場合、NTTドコモなら、楽天モバイルよりユーザーの年齢層は高いし、利用者の多い地域も異なります。データ解析を正当に行うには、データや解析手法を熟知したデータサイエンティストが欠かせません。さらに、情報学の知見をもつNIIの研究者などが率先して関わらなくてはいけない。そう判断して、私たちは3月半ばから感染症の研究者とも連携しながら、新型コロナ対策の研究を始めました。

niitoday89_5-3.png
外出自粛は「流入」ではなく「流出」を見る

─当初の新型コロナ対策で、政府が接触8割削減を掲げて外出自粛を求めたところ、都心の繁華街などの人出は減少しましたが、逆に近隣の商店街や公園の人出は増えてしまいました。

水野 これは、注目すべきデータ群を見誤ったのが原因です。外出自粛のためには、商業圏への人の「流入」ではなく、人々が住居地の外に出ていく「流出」を抑えることが重要だったのです。
 そこで、私たちNIIとキヤノングローバル戦略研究所のグループは、この観点から研究に取り組みました。ドコモの携帯電話約8000万台の基地局情報から、推定されたリアルタイム人口分布を利用して、住宅地からの「外出者数(夜間人口-昼間人口)」を見積もり、平常時の外出者数に対する、新型コロナ下の外出者数の割合を使って自粛率を導きました。具体的には、各市町村の住民がコロナ以前に比べて外出をどの程度控えているかを、「1-(ある日の外出者数)/(平常時の外出者数)」という形で見える化しています(図1)。このデータをNIIのホームページで公表したところ、NHKが数カ月間にわたって報道し続けたことで、各人の行動に注意を促すことができました。また、自粛率と感染抑制の相関や、年代や性別によって活動の仕方が違うといったことも確認できました。
 実は一般には公表していないデータとして、私たちは500m四方の区画(メッシュ)での流出も把握しています。これにより、自粛率の数値と、地域の保育園や町工場、商店街などの事情を関連づけることができます。県や、東京都なら市区町村レベルの行政が、このデータを活用して効果的な自粛要請を行えるようにもなりました。
 なお、ピーク時の東京都内では自粛率6~8割減を達成し、8月半ば現在でも、東京の住宅地からの流出は2割ほど減ったままです。これはテレワークの影響でしょう。現在この解析結果は、経済活動との関連を把握する際にも活用されています。

niitoday89_5-1.png

図1│流動人口ビッグデータによる地域民の自粛率の見える化。都道府県や地域別に自粛率を検索することができる。

目的が接触頻度の減少なら、何を制御すべきか

─その後、政府の施策は一律の自粛要請ではなく、ソーシャルディスタンスをとった上での社会活動へと変わってきましたね。

水野 そこで私たちは、人から人への感染につながる「接触頻度」に注目し、GPS位置情報のビッグデータを活用して、人口分布の高解像度化に取り組みました。これには、ドコモの基地局から収集した約8000万人分の500m×500m精度の位置情報データと、許諾のとれた携帯電話使用者から集めた約20万人分の数m精度の位置情報データ、つまり「精度は低いが数の多いデータ」と、「精度は高いが数の少ないデータ」の2つを組み合わせました。
 さらに、GPSでは2次元情報しかわかりませんが、高いビルの場合、各階に人がいれば実際には密ではないこと、人口密度が高くても車などで移動していれば問題ないこと、さらに人の向きなどの条件も加味しました。問題なのは15分以上、近い距離で顔と顔が近づいている状況です。これらの要素を考慮して解析した結果、単位時間あたりの人口密度の変化と、一人あたりの接触人数の変化が推定できるようになり、現実に近い接触頻度を導くことができるようになりました(図2)。この解析結果をもとに、「人の接触を8割減とする」には、「人出を8割減まで減らさなくても、6割5分程度の減少でよい」ということを明らかにしたのです。

niitoday89_5-2.jpg図2│渋谷周辺の平日(4月24日)の昼間のデータ(1月17日との比較)。500m四方区画の人口の変化率(左)と接触頻度の変化率(右=人口密度効果q=0.68)を算出した。接触頻度を見れば、より現実に近い密の状態を知ることができる。これを基に、地域ごとに細やかな対策を打つことが可能になる。

AIでファクターXを見つけ出したい

─いま、感染症の流行を予測するモデルの確立が求められています。自粛率や人の分布などさまざまなファクター(要因)がありますが、何が流行の抑制に効くのか、導き出せるのでしょうか?

水野 こういったモデルを導くには大きく2つの手法があります。1つは古典的な物理モデルをベースに、経済学や疫学などの理論から、因果関係のよく知られた重要なファクターのみを使って、感染流行を記述するモデルを組み立てます。この場合、どのファクターが、どのようにどの程度感染に効いているかは理解しやすいのですが、ファクターの数が少ないため、精度はあまり高くありません。一方、機械学習によるAIでは、大量のファクターを使って、高い精度で感染を予測することができます。中身がブラックボックスになっているため、どのファクターがどう効いているのかは人には理解できませんが、思いがけない未知のファクターを見つけ出すことには役立つはずです。
 たとえば、元気な高齢者が昼間に営業しているスナックでカラオケを楽しみ、そこで感染が広がるという現象は、意外なものでした。こういった、その地域ならではの気づきにくいファクターを、AIなら見つけられるでしょう。日本を含むアジアと、欧米の感染者の広がりの違いはなぜなのか、何がファクターXとして効いているのか、AIで探し出したいと考えています。これは、新型コロナに限った話ではなく、世界で起こっているさまざまな現象を捉えるのにも役立つでしょう。

(写真=佐藤祐介)

インタビュアーからのひとこと

 ビッグデータ解析でもアンケートでも、研究者は解析結果の公表時に強いメッセージを出そうとはしない。影響あるファクターの研究まで進んでいないうえ、専門外の領域では発言しないという、慎重さゆえだと理解していた。これに対して水野准教授は「活用したモデルには限界があり、必ず誤差があるからだ」と説明する。科学者として誠実な態度を示しつつ、社会の複雑な課題に積極果敢に取り組む水野准教授と NIIの活動に期待したい。

関連リンク
第89号の記事一覧