Jun. 2018No.80

ITによる新しい医療支援Ⅱデジタル革命がひらく医療の未来

Interview

機械学習で健康や医療、社会課題に挑む

相関を探り、定量化することで見えてくるもの

2017年11月1日に発足した「医療ビッグデータ研究センター」は、主に医療画像解析のためのAI 開発とクラウド基盤開発を目的としている。2018年4月に「コグニティブ・イノベーションセンター(CIC)」から異動し、現在は医療ビッグデータ研究センターで、医療用画像データについて病変か正常な範囲なのかを見極めるための診断補助AIを開発している二宮洋一郎特任研究員に話を聞いた。

二宮洋一郎

Youichirou Ninomiya

国立情報学研究所 医療ビッグデータ研究センター 特任研究員

めざすは「表現型の定量化」

 生物学の世界でもゲノムが研究対象になってからは爆発的に情報量が増えており、機械学習など計算機を使って各種データを解釈することが必須になりつつある。

 二宮洋一郎特任研究員は、もともとは顎の発生の研究者だ。顎の骨が発生過程に伴って発達していく中で、成長ホルモンの分泌や細胞内シグナル伝達など、どこかのパスウェイ(生物学的過程・経路)で何かが閾値を超えると、形成異常が発生する。すなわち、外見上の形態に異常が生じる「表現型」の異常となる。二宮特任研究員は、特にこの「表現型」と、生物個体が持つ遺伝子の構成である「遺伝子型」の相関関係の解析に、機械学習を使って研究を行ってきた。

 「例えば顎のX線写真から、骨の角度や長さ、位置、関節の中心点などいくつものパラメータがわかります。顎の病気にもさまざまな症状がありますが、どこがどうおかしいのか、まずは表現型を定量化するために、その特徴量を抽出します。同時に、患者さんの遺伝子についてゲノム解析をします。そして、遺伝子型と表現型の相関関係を調べ、具体的にどういう遺伝子の変異によるものなのかを調べていくのです」と、二宮特任研究員は語る。

 発生過程のどこにどんな変化がどの程度あったのかがわかれば、治療方針も立てやすい。新たな治療法の発見にもつながるかもしれない。

 基本的な考え方は「表現型の定量化」だ。バイオインフォマティクスの研究者だった二宮特任研究員にはつねづね、遺伝子型の定量化は進んでいる一方で、表現型の定量化は遅れているという思いがあった。そこで、表現型の定量化をやりたいと考えて、2016年にNIIのコグニティブ・イノベーションセンターの研究グループに参画した。それは、現在の医療ビッグデータ研究センターでの仕事、すなわちAIによる画像診断補助開発においても共通している視点である。

 「機械が何をどう見たかを明らかにしたいのです。単に正常と異常の違いを見分けるだけではなく、機械はどこに着目しているのか、それを数値にするとどのくらいなのか、つまり表現型の定量化がしたい。医療ビッグデータ研究センターでさらに研究を深めたいと思っています」

 四つの塩基対で表現されている遺伝子は、デジタルで定量化しやすい世界だ。一方、遺伝子発現の帰結である表現型は、顔のかたちひとつをとっても、みんな異なる。多種多様で定量化が難しい世界なのである。

 「でも、人は見るだけで個々の顔の違いが見分けられる。それに、相手がどんな表情をしていても同じ人だと認識できます。しかし、それは機械には難しい。人はどの特徴を見ているのか。何が違うのかを明らかにしたいのです」

「未病」の予兆にアプローチ

 二宮特任研究員が2年間在籍した「コグニティブ・イノベーションセンター(CIC)」は、日本アイ・ビー・エム株式会社と研究契約を結び、IBMの「Watson」や「Bluemix」など新しいコグニティブ・コンピューティング技術を使って、高齢化や労働・生活環境などの社会課題の解決に挑んでいるセンターだ。20社程度の業種の異なる民間企業と協業しており、実データを使って研究を進めている点に特徴がある。

 CICには、健康や子育て支援、消費行動に関する研究など、五つのテーマがある。二宮特任研究員はそのうち、健康保険データと人事データを使って、未病の予兆を捉える研究を進めていた。初年度は、5年間2万人分の参画企業のデータを用いたが、残念ながらデータに大きなばらつきがあって、予定どおりに研究は進められなかった。

 そこで2年目には、労働者の健康格差の実態とメカニズムを解明することを目的に、北里大学医学部公衆衛生学教室が中心となって実施した多目的パネル調査「J-HOPE」のデータを用いた。「J-HOPE」には、5年間1万人分のコホート(集団に対する疫学的な観察調査)のデータがあり、職場環境を計測するためのパラメータや健康診断データなどが各職場ごとにわかる。

 このJ-HOPEを使って職場の環境問題と個人の健康問題の関係を、特に高血圧、糖尿病、うつ病に焦点をあてて機械学習技術を使って解析し、どの因子がどう関わっているかを見てみた。すると、働き方によって身体的疾病リスクが高まることが、実際にエビデンスとして示された。

 その結果を踏まえて、改めて参画企業の経時データをきちんと取得しなおし、働き方や職場の環境が疾病の悪化や改善にどうつながっているのかを調べたのが2018年の研究だ。対象としたのは健康経営を標榜する会社だが、局所的に疾病が悪化している職場があることがわかったという。

 なお、NII側が受け取っているのはコード化されているデータなので、健康が悪化しているのが具体的にどのような職場なのかはわからない。「そこから先は各企業が産業医と一緒に、個人ではなく職場に対してアプローチすることになると思います」と二宮特任研究員。

 なおこのときは、ディープラーニング(深層学習)ではなく、一般的な機械学習の手法を用いた。「1万人、2万人規模のデータならば既存の伝統的な機械学習手法を使ったほうが良い結果が得られやすい」と言う。今後、遺伝子や生活習慣などの分野において、さらに大規模なデータを集められるようになった場合には、また別の適切な手法を使うことが必要になるかもしれない。

 二宮特任研究員がCICで手がけたもう一つの研究は、ものづくり企業における「技能継承」に関するものだ。熟練工が持っている身体知や暗黙知を定量化し、ポイントを抽出することをめざした。具体的には、部品の目視検査などの作業の様子を動画撮影し、統計学的に次元圧縮とクラスタリング(グループ分け)を用いて、熟練者がどのような手順で一連の作業を行っているのか、どのような作業単位に分けられるのか、各々どのくらいの時間をかけて実行しているのか抽出した。その結果をもとに、どのような手順で作業を行えばいいのか、初心者に対して機械が指示してくれるシステムをつくることをめざす。この研究はCICで継続されている。

伝統的な機械学習方法にも利点

 医療ビッグデータ研究センターで開発中の画像診断補助技術のモデルケースの一つは「胃がん」だ。日本消化器内視鏡学会、日本病理学会、日本医学放射線学会、日本眼科学会をパートナーとして、全国から10万枚以上の医療画像を収集する。例えば、内視鏡検査では一般に、1回あたり40枚程度の画像を撮影する。そして診断を行って標準化されたテキストをつけて報告書にする。それを教師データとして用いる。

 昨今、各所で開発されているAIを使った画像診断補助技術の多くは、ディープラーニングを用いている。医療ビッグデータ研究センターの画像解析も、ほとんどがディープラーニングを用いたものだ。

 だが、二宮特任研究員は「ディープラーニングは分類する能力は高いが、プロセスがブラックボックスになっていて、どういうところを見ておかしいと判断しているのか全くわからない」と課題を指摘する。そのため自身は、伝統的な機械学習の手法を使うことで「機械が、何をどう見たかを明らかにしたい」と強調する。つまりここでもめざすのは定量化であり、それを画像診断の精度向上に役立てたいという。あくまで二宮特任研究員の目標は、「表現型の定量化」なのである。(取材・文=森山和道 写真=佐藤祐介)

第80号の記事一覧