Sep. 2019No.85

フェイクに挑む不正な情報を見抜くために

Article

研究不正の反省から 独自の対策システムを開発

論文に関わる全ての研究データをアップロードして保管

17の研究室、約200人の教員・学生からなる基礎生物学の研究拠点である東京大学定量生命科学研究所。設立のきっかけは、その前身の研究所で発生した2件の研究不正だった。不正対策の取り組みについて、同研究所の泊 幸秀教授と須谷尚史講師、国立情報学研究所の込山悠介助教に話を聞いた。

泊 幸秀

Yukihide Tomari

2003年東京大学大学院工学系研究科化学生命工学専攻博士課程を修了。博士(工学)。米国マサチューセッツ州立大学博士研究員を経て、2006年、東京大学分子細胞生物学研究所 講師。
2009年同准教授、2013年同教授。また2017年より同副所長を務める。改組に伴い、2018年より東京大学定量生命科学研究所副所長・教授。小分子RNAの分子メカニズムについて研究を行う。

須谷 尚史

Takashi Sutani

1999年京都大学大学院理学研究科生物科学専攻博士課程を修了。博士(理学)。米国Harvard Medical School博士研究員、東京工業大学特任助教等を経て、2010年より東京大学分子細胞生物学研究所 助教、2015年同講師。改組に伴い、2018年より東京大学定量生命科学研究所講師。染色体の高次構造制御に関する研究を行っている。

込山 悠介

Yusuke Komiyama

国立情報学研究所 コンテンツ科学研究系/オープンサイエンス基盤研究センター 助教

研究不正を乗り越えて

─ 定量生命科学研究所の設立の経緯は

 東京大学 定量生命科学研究所( 定量研、IQB [Institute forQuantitative Biosciences])は2018年4月、分子細胞生物学研究所(分生研)を改組する形で設立されました。そのきっかけになったのが、分生研で2014年と2017年に明らかとなった2件の研究不正です。
 従来の生物系研究には杜撰(ずさん)な方法論に基づいた再現性の乏しいものが多々みられた事実があり、そのことが不正を招く要因の一つになっていました。その反省を踏まえ、正確性や解像度、網羅性に優れた新しい手法を積極的に採用し、データ駆動型アプローチと組み合わせることで「定量性」「再現性」にこだわった生命科学研究を展開することを本研究所ではめざしています。これが、研究所の名称に定量という名を冠した理由です。海外には「定量(Quantitative)」の名が付く生命科学の研究所がいくつかありますが、日本では現時点でここだけです。

─ 研究の不正対策への取り組みは

須谷 再スタートに当たり、不正を起こさせないデータ管理体制について整備を進めました。システム開発プロジェクトが動き出したのは、研究所開設前の2017年8月です。
 研究所では分子生物学や生化学、細胞生物学、構造生物学と幅広い分野の研究が行われていますが、不正対策の本筋は分野を問わず「論文の基になった生データをきちんと保存、管理すること」です。生データと論文を照らし合わせることで、ねつ造や改ざんといった大きな研究不正は自ずと明らかになります。
 データの管理に当たって重要なのは「不正が疑われたとき、即座に研究データにアクセスできる仕組み」です。科研費を使った研究にはデータの保存・開示義務がありますが、個人のパソコンや研究室のストレージに保存するだけでは、すぐに発見できない、ハードウエアの故障で消えてしまう、などの恐れがあります。
 そこで論文受理後、研究データや図表をクラウド上のストレージにアップロードする作業を自動化する「MOD(Manuscript scan & Original data Deposition)システム」を独自に構築しました。米グーグルのクラウドサービス「G Suite for Education」を使用し、ドライブ、フォーム、スプレッドシートの機能を Google Apps Script で連携させています。 アップロードした図表について、不正操作の痕跡がないかどうかをチェックする体制もつくりました。

85_3_all.jpg

論文データを保存、管理する仕組みを構築

─ 管理対象となるデータの種類は

 論文の基となったデータとして、計測機器などが出力した生データと生データを加工して得られた中間加工データの全てを収集します。それに加えて、受理された論文原稿と図表、そして論文作成が適切に行われたことを示すチェックリストの提出も求めています。
 システムの構築に当たっては、保存すべきデータの種類や質について、基準を決めるところから始めました。顕微鏡やゲル電気泳動で得られる画像データのほか、さまざまな生命科学の解析機器に固有の出力ファイルなどを生データとして保存します。研究によっては1論文当たりの生データが40ギガバイトにおよぶこともあります。
 中間加工では、画像調整や統計解析処理などのデータ加工に使ったソフトウエアの名前も登録します。図表はラスタライズ前、つまりレイヤー情報を残したデータを保存します。
 論文の著者には、論文が受理されたことをWeb フォームで速やかに報告した上で、論文の原稿と図表は論文受理から3日以内に、生データと中間加工ファイルは1カ月以内にアップロードすることを義務づけています。著者には、各種ファイルを決められた階層構造のフォルダに保存してもらい、その階層構造をシステム側が読み取ってアップロードします。
 保存した図表については、不正の疑われる画像操作の痕跡がないかどうかを研究所内の研究倫理推進室がチェックします。自作の画像フィルターを使い、コピー& ペーストなどの加工の痕跡を浮かび上がらせる仕組みです。不正検知に詳しい専任の職員が検知の業務に携わっています。
 運用を始めたのは研究所の設立時期とほぼ同時期(2018年1月)ですが、現時点でこの仕組みは非常にうまく回っています。

他の研究機関でも使える汎用的なシステムへ

─ こうした不正対策システムの他の研究所への展開は

込山 NII と定量研は連携して、全国の大学や研究機関でも同様の不正対策システムを汎用的な研究データ基盤の上で使えるようにしたいと考えています。
 NII では現在、研究者個人や研究グループが研究データや関連資料を管理・公開・検索する基盤システム「NII ResearchData Cloud(NII RDC)」の構築を進めています。NII RDCは2017年4月からNII オープンサイエンス基盤研究センターの山地一禎センター長の下で研究開発が始まり、一部の基盤については2019年4月から全国の学術機関に向けて実証実験を実施しています。このNII RDCは2020年後半に本稼働する予定です。
 NII RDCはそれぞれ役割を持った複数のサービスから構成されていますが、そのうち研究データ管理 (RDM: Research Data Management) を行うサービスGakuNin RDMでは、大学などが持つオンプレミスのサーバーやクラウドサービスをGakuNin RDM のストレージとして使えるほか、アップロードしたファイルのバージョン管理や研究証跡保存のための機能があります。

 現状のMODシステムは定量研のIT環境を前提にパスやフォルダ名などをハードコーディング[1]しています。今後、より汎用的なコードに修正し、GakuNin RDMにデータをアップロードできるようにすれば、どの研究機関でも使えるようになります。

85_3_1.jpg

─ 今後のシステム開発の方向性は

込山 現在、研究公正管理システムIQB-RIMS(Research-Integrity Management System)をGakuNin RDM のプラグイン機能という形でNIIと定量研で共同して開発しているところです。その後は、GakuNin RDMを不正防止に利用するだけではなく、研究活動をサポートすることのできるサービスへと進化させたいと考えています。GakuNin RDMは現在も研究者同士のコミュニケーション機能などを備えていますが、それだけでなく研究データを機関リポジトリに登録し共有や公開ができる基盤を提供することをNII RDC全体の目標としてめざしています。

須谷 現在のMODは、論文受理の後にデータを取りまとめてアップロードしていますが、本来は実験でデータを取得するたびにアップロードするのが理想です。今後はその方向で検討したいですね。

込山 面白いですね。そうなると、意図とは異なる結果が得られた実験データ、すなわち失敗データもアップロードする形になりますが、それが別の観点で着目され再利用されることも「オープンサイエンス」の一つの形かもしれません。実際、近年はネガティブな研究成果(Negative Result)を掲載する雑誌も登場しています。「失敗も成果の一つ」という考え方が浸透すれば、実験結果を改ざんする意味も乏しくなるのではないでしょうか。

(取材・文=浅川直輝〈日経× TECH /日経コンピュータ副編集長 写真撮影=佐藤祐介)

注釈

[1]ハードコーディング:ソフトウエアの開発の際に特定の動作環境を、直接ソー スコードの中に埋め込むこと。

関連リンク
第85号の記事一覧