Interview
研究データ基盤活用の先駆を目指して
「AI等の活用を推進する研究データエコシステム構築事業」では、全国的な研究データ基盤の活用やデータ連携を進めていく上で、その先駆となるべきユースケース創出に向けての課題提案を公募している。一言でデータ基盤の活用と言っても、抱える問題意識、活用に向けてのアプローチは、分野により、研究のテーマにより、さまざまな違いがある。ここでは、「ユースケース創出事業(以後、ユースケース事業)」採択プロジェクトの中から、それぞれ異なる分野の4人の研究者に、事業応募のきっかけ、進捗、課題、抱負と今後の研究データのあり方、この事業を通しての、国立情報学研究所(NII)への提言を聞く。

小野 寛太ONO, Kanta
大阪大学
大学院工学研究科 教授

木村 映善KIMURA, Eizen
愛媛大学
医学系研究科 教授

徳地 直子TOKUCHI, Naoko
京都大学 フィールド科学
教育研究センター
森林生態系部門 教授

菊池 信彦KIKUCHI, Nobuhiko
国文学研究資料館研究部准教授
同 古典籍データ駆動研究センター
副センター長
(敬称略)
研究データ基盤に関する問題意識
──今回の「ユースケース事業」ご参画の経緯、研究概要をお願いします。
小野 我々の提案は、カテゴリーとしては「実験」になります。我々は材料科学の分野で、大きく分けて2つの研究を行っています。一つは、大型の施設を使い、放射光や中性子に関し大規模に計測データを取得、解析し、そこから何か新しいものを見つけようというもの。もう一つは「自動自律実験」というものです。これは人の手を介さず、ロボットに実験を任せるのですが、こちらも連続的に大量のデータが出てきます。
しかし現時点では、入り口に過ぎない「大量のデータを取得する」方にばかり目が向いて、本来重要であるはずの、それら大量のデータを素早く解析し、次の実験に活かしていくというループが、いまひとつしっくり行っていない。それが前から気になっていました。
そんな折、NIIでちょうどデータ基盤に関する取り組みが始まるということを知り、応募した次第です。応募にあたっては、データを研究者のコミュニティで共有し、新たな知識の創出に結び付けるためのプラットフォームの構築というところまでも含めて提案させてもらいました。(図1)

木村 私の課題提案は、「国際的なRWD(リアルワールドデータ) [※1] 研究を実現する医療情報分析基盤の検討」をテーマに掲げています。(図2)医療リアルワールドデータとは、日々の医療の実臨床で得られるさまざまな医療データの総称です。
私自身は医療情報学が専門で、大学で教授を務める一方、学部付属病院では医療情報部長という立場で電子カルテシステムの運営管理に携わっています。そんな中、多くの先生から「電子カルテからデータを取り出して使いたいね」というリクエストが寄せられるのですが、実はこれが一筋縄では行きません。取り出してすぐに使えるものではなく、個人情報秘匿加工のプロセスを踏むなど、そのマネジメントが重要になります。
こうした管理と活用をスムーズに行えるよう、かねてデータ環境の基盤整備に関して取り組んでいたのですが、どうも研究ではなく、授業とか業務とかの範疇であろうと判断されてか、なかなか公に取り上げてもらえませんでした。そのような状況で、今回この事業に応募し、プロジェクトが採択され進めているところです。

徳地 私が属している京都大学フィールド科学教育研究センターは、20年ほど前、大学の改組の時に「森里海連環学」という新たに設定された学問領域をミッションとして生まれた組織です。これはその名の通り、森から海までを一つのつながりとして捉えて考え、健全な国土を保全していこうというものです。
私自身はもともと森林生態学が専門なのですが、以来、私も含めてセンターの研究者は、もともとの自分の分野よりも視野を広げて研究をするようになっています。今で言う超学際研究というものを、その頃からやっているわけです。
ただ、我々自然科学系の研究者は一応定量的な数値データで物事を考えることが多いのに対し、社会科学系はもっとナラティブなアプローチになることもある。そうした異なるデータの"作法"を、どうやって一元的に捉えていくか。それが常々悩みだったのです。そんな話を、情報学の先生にお話ししたところ、こちらのプロジェクトを紹介していただいた。それが応募のきっかけです。
たまたまその時、ご縁があって岐阜県飛驒市の森林をテーマに研究を行っていたこともあり、「飛驒市においてデータを基に、これからの飛驒市を考えることができるようなプラットフォームを作りませんか?」といった課題を設定させてもらいました。(図3)その先について言えば「異なる分野の人が一緒に考えられるプラットフォームを作る」ことが究極の目標です。まあ、現時点ではまったくそこまで行っていないのですが。

菊池 私が所属する国文学研究資料館(国文研)では、「データ駆動による課題解決型人文学の創生~データ基盤の構築・活用による次世代型人文学研究の開拓~」という、文部科学省の大規模学術フロンティア促進事業のプロジェクトを2024年度から2033年度までの10年計画でスタートさせたところなのです。この中で、人文系の研究データを管理し、それをオープンデータとして公開、流通させていくことは喫緊の課題となっています。「ユースケース創出事業」については上司の紹介で知ったのですが、人文系の研究データの管理・公開に関しての経験を積むにもいい機会であると考えています。
課題提案のタイトルは「古典籍テキストデータを活用したデータ駆動型人文学のための研究資源構築プロジェクト」。過去10年にわたって構築を進めてきた国書データベースを利用し、参加メンバーそれぞれの研究関心の元で、特色のある古典籍のTEI/XMLデータ化に取り組んでいます。そこで試行錯誤して得られた知見やデータを、NII RDCを使い共有、公開していくことで、これからの古典籍の研究資源化を目指しています。(図4)

利活用のレベルもさまざまなNII RDC
──「ユースケース事業」の条件、NII RDCの活用について、活用状況、メリット、課題などお聞かせください。
木村 私の課題提案は、「国際的なRWD(リアルワールドデータ)※1研究を実現する医療情報分析基盤の検討」をテーマに掲げています。(図2)医療リアルワールドデータとは、日々の医療の実臨床で得られるさまざまな医療データの総称です。
NII RDCの中でも、現在、私の研究計画では、特にその管理基盤であるGakuNin RDMを利用しています。GakuNin RDMに関しては、特に研究の公正性とトレーサビリティの担保という点でありがたみを感じています。
研究においては過去プロセスが透明であるかどうかは非常に重要なのですが、GakuNin RDMにはタイムスタンプの機能があり、信頼性の高い認証プラットフォームと連携をしています。第三者的に信用を担保できるアーキテクチャとして、非常に有用な仕組みではないかと思っています。一方で、患者さんの立場からすると、そのような多くの人々が利用する基盤に、個人情報である医療データ、研究データを置いて大丈夫なのかと、抵抗感を覚えることもあるかと思います。これについては突き詰めれば信頼関係の問題ではありますが、安心感を高めるための啓発活動のようなものも必要かと思います。これが、私が思い付く課題の一つでしょうか。
菊池 我々の研究の中では、NII RDCは共同研究メンバーのTEI/XMLマークアップデータの保存と共有、そしてそのマークアップ方針の集約場所として利用しています。現時点では扱うデータが小規模なものである場合が多く、共有も常時行う必要がなく研究会の際に共有できればいいために、商用ストレージやメール共有でも十分になっています。その点では、ややNII RDCの恩恵を感じにくいのが正直なところです。ただ、NII RDCを利用するメリットは間違いなく「安心感」にあると思います。従来の商業クラウドサービスは永続的に存在する保証がない中で、NIIによるシステム提供は、「安心して長期に利用できる」と思わせてくれます。
一方で、不満点や改善点は、まさにそれと裏表の関係にあります。究極の安心感は存在や利用を意識しないことにありますが、NII RDCの利用に際しては、これまでの研究習慣になかったことを行い、慣れない操作をしてデータを登録し、そのバージョンを管理せねばならなくなります。これまで商用ストレージサーバでボタン一つでできていたデータ保存と共有が、NII RDCとなると、メタデータの管理も作業に入り、煩雑さを感じざるを得ません。そのハードルが下がってくれればと願っています。
徳地 私のところでは、NII RDCに関しては途に就いたばかりです。というのも、今回のプロジェクトはいろいろな学問分野、いろいろな機関の先生に加わっていただいているのですが、それらの機関の多くが、学認に入っていません。どうやったら入れるの?というところからがスタートで、これがかなり大変でした。
結局、教授会に諮って、皆さんには京都大学の「連携研究員」になっていただいています。そこに漕ぎ着けるまでに結構時間を費やしてしまい、まだ「活用」と言える段階には至っていないのが現状です。今後進めていくにあたっても、やはりもっと多くの方々にとって入りやすく、可能であれば研究者レベルでアプライできるものになってもらえればありがたいです。
小野 我々のところでは、まだ、大容量データの解析と、それをストレージ上で共有するというレベルにとどまっており、NII RDC上で全研究データを管理するというところまではたどり着いていないのが現状です。
我々が扱っているほど大量のデータ置き場として使用することが想定されているのかどうか。また大学内で使う分にはまったく問題ないと思うのですが、外部の方と連携をしたいという場合にどうすればよいのか。「自動自律実験」においては、メタデータ的なものも含め、人間を一切介在させずにデータの蓄積など全操作を行いたいのですが、こうした点もどのようにすればよいか。そのあたり、まだよく分からない点もあります。これも今後に向けての課題で、さらによく調べたり、NIIの方にお話を聞いたりしつつ進めていきたいと思います。
これからの発展に向けて
──今後の抱負、展望について。
菊池 本事業で言うところの「研究データエコシステム」は、これからの研究活動の中で生み出される研究データが主な対象になっています。
ただ、人文系の立場からすると、これまで商業出版物として刊行された研究成果を、研究データとして流通することも視野に入れてほしいと思っています。もともと研究成果は紙の本にすることが規範でしたし、今なおそうなのですが、紙の本になっているがゆえに、そこに含まれる内容を研究データとして活用することが難しくなります。
いずれにせよ、人文系の研究は「研究データの管理」ということに関して、まだまだ馴染んでいないところがあります。NII RDCは、人文学でも利用しやすい環境になるシステムを目指して頑張っていただければと思います。
徳地 「研究データエコシステム構築」という、大上段からの展望というのは特にないのですが、私たちが課題として提案した飛驒市の問題に関しては、まずは我々の持てるデータを有機的に関連させ、そうした中から飛騨市の成り立ちのようなものが見えてくる、そんな活用の仕方を実現できていければと考えています。
木村 現時点では、まだNII RDCの中で、データ公開、データ管理、それから研究者の情報管理という要素が独立していて、統合化が図られていないと思います。そこを確実に進めていただきたいというのが第一の希望です。また医療分野では、個人情報の扱いの問題を含め、研究データの公開にはためらいがある場合が多いのです。これに関しては今まさに仮名加工に関するガイドラインが出てきたばかりですが、そうした動きに対し、研究者が個人的に対応するのは、やはり負担が大きい。データを公開して大丈夫か、それを第三者機関が審査するといったプロセスもサービスの一環として設けていただけると、さらに利用も加速するのではと思います。
小野 冒頭に述べたように、現在、「自動自律実験」の分野では、ロボットなどを活用してデータを取得する部分が先行していて、海外の研究などでもそちらが注目を集めています。「研究データエコシステム構築事業」に参加させていただいて、我々がやらなければいけないことは、その先、自動自律のハードウェアの構築にとどまらず、データ側でどのように管理と活用を進め、それを通じて「本当に何か新しいもの、価値あるものを生み出す」というところまでつなげていくことだろうと思います。これは国内でも、世界全体でも現在足りていないですし、今後さらに重要性が増していくことです。そのためにはどのようなデータ基盤が必要なのか。それをNIIの皆さんとも一緒になって考え、作り上げていきたいと思っています。
[※1] RWD(RealWorldData) 診療行為に基づいて症状や調剤履歴等が記録され、匿名化された医療ビッグデータ。
[※2] OHDSI(ObservationalHealthDataSciencesandInformatics)国際的ボランタリーベースの医療ビッグデータ分析オープンサイエンスコミュニティ。
取材・構成:川畑 英毅/写真:杉崎 恭一、岸本 治恵