Mar. 2016No.71

オープンサイエンス開かれたデータの可能性

Interview

オープンサイエンスの時代へ

データ共有化でNIIの果たす役割は?

科学論文の根拠となる実験データなどを公開、共有化する動きが始まっている。過去数百年の間、論文誌や学会発表を通じて行われてきた情報の共有化が、情報通信技術の発展によって大きく変わろうとしている。この「オープンサイエンス」の動きは多種多様な研究者、研究領域が生みだした知識を組み合わせ、研究を加速するだけでなく、新たな知識を生む触媒にもなりうる。日本の科学研究を支援するIT 基盤を提供してきた国立情報学研究所はこの流れの中でどのような役割を果たそうとしているのか、喜連川優所長に聞いた。

喜連川 優

KITSUREGAWA Masaru

国立情報学研究所 所長

滝 順一

聞き手TAKI Junichi

日本経済新聞社 論説委員 兼 経済解説部編集委員。早稲田大学政治経済学部卒業後、日本経済新聞社入社。産業部(現企業報道部)、ワシントン支局、大阪本社経済部編集委員、東京本社科学技術部長などを経て、2009年3月から論説委員。科学技術や環境、医学などを担当する。

 オープンサイエンスという言葉をよく耳にするようになりました。

喜連川 オープンサイエンスには二つの論点があります。「オープンアクセスジャーナル」と「オープンリサーチデータ」です。これまで科学論文を載せた雑誌は、購読者がお金を払って購読していました。論文著者が出版社にお金を払って、無料で広く一般の人が論文を読めるようにするのがオープンアクセスジャーナルで、世界的に広がりを見せています。

 一方、オープンリサーチデータは、論文と一緒に論文の根拠となるデータを公開する動きです。データがあれば論文で主張されていることの再現が容易になります。その結果、多くの研究者が論文の結論やデータを早く活用でき、科学の進展やイノベーションを加速できます。再現できない論文を出す行為を減らす効果も期待できます。データが出ていれば次の人はそれを利用して研究するので、単に研究が加速するだけではなく、重複投資を避けられ、研究を効率的に進められます。

 オープンアクセスジャーナルの議論はひとまずメドがついた感じなので、いまはオープンリサーチデータがホットな課題になってきました。

 データの公開は大切ですが、研究者にはそうするインセンティブがないように思えます。

喜連川 論文を識別する番号「デジタルオブジェクト識別子」(DOI=Digital Object Identifier)がありますが、データにも識別番号を与えて「このデータを使って論文を書きました」とデータを引用する習慣がすでに始まっています。貴重なデータを生み出した研究者にリスペクトを示し、データ公開へのインセンティブを生み出す動きです。

 ただ論文の評価に比べてデータの評価は難しい。データの精度は利用目的によって水準が異なりますし、データの正しさも使い方の局面が変われば違ってくることもありえます。論文と同じようにはいかないかもしれません。

 丹精込めてつくったデータを我が物としたい研究者の気持ちは理解できます。ただ論文の再現可能性を担保するのは科学者の責務です。相手が出すものは自分も出すのが前提です。公平感をいかに実現するかは、広く言えば「外交」の問題といってもいいと思います。日米欧などの研究機関がつくったリサーチデータ・アライアンス(RDA)と呼ぶ組織があり、データの共有化でどんな価値観が新たに生み出せるか議論をしています。

 NIIはデータのオープン化の流れにどう対応するのですか。

喜連川 NII は、大学など研究機関の学術情報を収集・保存・利用するための「機関リポジトリ」の運用で大学図書館などを支援してきました。共用リポジトリサービス「JAIRO Cloud」を提供し国内465の大学や研究機関に利用してもらっています。このサービスを拡張してデータも格納できるようにすれば、大学から喜ばれるのではないかと考えています。

 データの性格は天文学や高エネルギー物理学、ゲノム解析、物質材料研究など領域によって異なり、データの扱い方の慣習も違います。データの内容などを示すために付与するメタデータをどうするかなど、領域ごとの研究者と相談して決めていかなければならず、データの格納は論文とは違った難しい面があります。少々時間がかかるかもしれませんが、一歩一歩進める必要があります。

 NII がストレージサービスを提供して研究を下支えするわけですね。

喜連川 そうです。ただデータには必ずその解析に用いたプログラムが存在します。解析の再現性を担保するにはプログラムも格納する必要がありますが、これも技術的にはなかなかしんどいことです。みなさんがパソコンで経験されているように、OSのバージョンが変わるとアプリケーションソフトが動かなくなることはよくあることです。

 こう考えると、長い目でみて、NIIは領域ごとにその領域の研究者のみなさんと、データの格納のやり方とデータを料理するプログラムを載せた研究のプラットフォームを一緒に考え、つくっていくという構図になります。

 所謂「Science 2.0」の世界ともいえるかもしれません。

 大きな方向感としては、科学研究がIT プラットフォームに載っていく流れです。みなさんはなぜアマゾンのクラウドサービスを利用するのでしょうか。そこへ行けば必要なものがすべてそろっており、アマゾンが提供する環境が便利で豊かだからです。研究を始めるのに、いちいちコンピュータを導入して自分でプログラムを書くのではなく、なるべく先人が開発したソフトウェアなどを利用した方が速いし効率的です。

 そうした方向感は科学界で広く共有されていますか。

喜連川 生命科学のゲノム研究ではすでに一般的です。解読された塩基配列データは共有され、研究者は自らの競争力のコアは何かをしっかり認識したうえで、公開されたデータから必要なもの、いいものをどんどんとってきて活用しています。グーグルがディープラーニングのライブラリをオープンにしたのも似ていますが、こちらは最先端の研究者を引き付け、グーグルの方法論を広げようとする意図があります。誰かがライブラリを公開して「さあ、どうぞ使ってください」というやり方もありますが、みんなで同じプラットフォームに載っけ合いましょうという時代が来ると思います。NIIはそこを目指します。

 研究支援のIT プラットフォームを提供する動きは大手出版など民間にもあります。

喜連川 そうしたサービスが商業的にペイできるのは、産業に近く、研究者間の競争が激しい領域でしょう。研究費が潤沢で商用サービスが成り立つ。私の個人的な思いとしては、商用サービスがあまり興味を示さない領域の支援にも力を入れたい。また異分野の融合領域は研究が「沸騰」しやすい。NIIは大学の共同利用機関としては多様なプレイヤーとつきあうことが多いので、その持ち味を生かして融合領域の支援にも努めていきます。

(写真=川本聖哉)

インタビュアーからのひとこと

日米欧などの研究者が協力したヒトゲノム解読計画では読み取った塩基配列データが共有された。巨大加速器や大型天体望遠鏡などの実験・観測データの共有化は以前から進んでいると聞く。データの共有化が大きな潮流であることは間違いない。
 他方、すべての領域で野放図に共有化が進むとも思えない。研究者や企業、国家間の競争が激しい領域では話は単純ではない。守るべきデータは存在する。欧米の論文誌に投稿すると査読段階で情報が漏れるとの苦情や不安をしばしば耳にしてきた。似た状況がデータの世界で生ずるのは避けたい。それには日本が公開のルールづくりで積極的に発言し貢献することが
必要だろう。

第71号の記事一覧