Sep. 2022No.96

智の結晶が発見できるCiNii Research 本格始動

NII Today 第96号

Interview

データ駆動型社会のハブ「知識発見の新基盤」

「10秒で欲しい情報」「ディープな検索」を実現したCiNii Research

国立情報学研究所(NII)が論文など学術関連情報を一括して検索できる新たな学術情報検索基盤CiNii Research(サイニィ リサーチ)を公開した。データ活用で未来を拓く「データ駆動型社会」のハブと位置づけている。CiNii Researchの特長などを開発担当者に聞いた。

大波 純一

ONAMI, Jun- ichi

国立情報学研究所
オープンサイエンス基盤研究センター
特任准教授

滝 順一 氏

聞き手TAKI, Junichi

日本経済新聞社
編集委員

――CiNii Researchはどのようなサービスですか。

 学術情報検索サービスは、現代の研究活動において一つの中心となる活動です。研究者が論文を読み発見をする活動は今も昔も変わりませんが、世の中の変化に伴い活動の重点が変わります。
 CiNii Researchの前身となるCiNii(のちにCiNii Articlesとして独立)は、NIIの学術コンテンツ・ポータルのGeNii(ジーニィ、Global environment for Networked Intellectual Information)の中の論文情報検索サービスとして2004年ごろに始まり、研究者のみなさんに利用されてきました。2021年に、論文だけではなく研究データなどの研究活動のアウトプットを総合的に検索でき、研究者の発見をプッシュアップするサービスとしてCiNii Researchを新たに公開しました。

――論文以外のどのような情報が見つけられるのですか。

 これまでNIIが異なるデータベースで提供してきた論文情報(CiNii Articles)、書誌情報(CiNii Books)、博士論文情報(CiNii Dissertations)を一括して検索できるように統合するとともに、全国の大学や研究機関が研究データを登録している機関リポジトリ(IRDB)のデータや日本学術振興会が提供する科学研究費助成事業データベースKAKENのデータも併せて検索できるようにしました。
 つまり論文の根拠である研究データや、論文や出版物がどのような研究プロジェクトに基づく成果なのかまで、研究関連の情報リソースに包括的にアクセスできる「知識発見の基盤」を新たに作ったと言えます。

自分の欲しい情報が芋づる式に発見できる

――複数のデータベースを単純に統合しただけではないということですか。

 CiNii Researchの開発にあたって2つのポリシーがありました。一つは「イージーアクセス」です。簡単にアクセスできて使いやすいということです。約6,350万件の研究データや論文、書誌情報、プロジェクトデータをシンプルに横断検索できます。10秒で欲しい情報が手に入るようにすることを目指しました。
もう一つは「ディープサーチ」です。「より深い階層に埋もれた情報まで」芋づる式に取り出せるような構造にしようと考えました。キーワード検索すると、論文などの情報が検索結果として表示されますが、メタデータや抄録、識別子(DOI)だけでなく、その論文が引用している被引用論文、その論文が引用されている別の論文の情報、関連する研究データ、論文を生み出した研究プロジェクトの情報なども一緒に表示されるページ構成にしました。情報を俯瞰的にみて、情報の間をリンクで移動可能です。関連情報を手がかりに検索すればするほど自分の欲しい情報が芋づる式に発見できます。
 CiNii Researchを利用する研究者や研究成果の社会的な活用を考えている人にとって、必要な情報を包括的に入手するだけでなく新たな知識の発見につながる入り口になります。

――そのようなディープサーチはどのように実現したのですか。

 データベースを統合するにあたってデータ間の関係性を重視しました。データベースの中で表現されるひとつ一つの概念を「エンティティ(Entity)」と呼びます。例えば「夏目漱石」という一つのエンティティが存在します。「坊ちゃん」の作者として皆が認識する一つの概念としてデータベースに登録されています。 データベースはそうしたたくさんのエンティティ同士を関連づけているのですが、CiNii Researchは単純にリンクしているだけにとどまらず、エンティティ同士がどういう関係にあるのかリンクの意味づけをしています。夏目漱石と「坊ちゃん」の例で言えば、夏目漱石は「坊ちゃん」の作者であり「坊ちゃん」は夏目漱石の作品の一つという関係です。エンティティ同士が矢印で相互に関係を設定し合うような構造になっています。
 従来のデータベースは、表形式の中にデータを入れて検索して必要なデータを取ってくるという形でした。あるいはウェブ上の一般的な検索エンジンにしても、たくさんの情報が整理されずに入ったデータの集まりからキーワードで関連情報を検索するというもので、研究者を満足させるものばかりではありません。高度な検索をやろうとしている人には物足りないのです。
 研究者は、この論文はこの著者の論文であるということを間違いなく見分け、簡単な操作でストレスなく取り出したい。最新の知識データベースは、論文と著者の関係などデータ間の関係性をきちんと見分けられるような構造になっており、CiNii Researchも研究者のニーズに合わせて研究活動の効率化に貢献するものとして開発されました。

横断的な検索を可能にする

――確かにウェブの検索エンジンでは欲しい情報が一発で出てくるとは限らないですね。

 CiNii Research は「JPCOARスキーマ」と呼ばれるメタデータの規格を採用しました。日本のオープンアクセスリポジトリ推進協会(JPCOAR)が国際的な相互運用性を踏まえて策定した規格です。横断的な検索を可能にする標準的なツールでもあります。
 この規格に基づいてデータを振り分けたことにより、CiNii Researchはデータベース間で重なっている部分をつなぎ合わせるように統合化することができました。例えばある研究者に関する情報が一つのデータベースでは不十分であってもほかのデータベースの情報をつないで重ね合わせることで情報をリッチにできます。いわばベン図の共通部分だけではなく、外側の和集合の部分のデータもつなぎ合わせることで個々のエンティティについて豊富な情報を提供することができます。

―――利用状況はいかがですか。

 2022年4月にCiNii Articlesを統合して以降、1日の平均ユーザー数は約18万、1日のページビューは約62万にのぼっています。(2022年7月現在)

――――いま、CiNii Researchのような学術情報データベースが必要とされる背景には何があるのでしょうか。

 一つは学術情報が非常に巨大化していることです。最近では論文だけでなく論文に紐づけられたデータも公開するのが大きな潮流です。研究不正を防ぐため、あるいは研究結果の再現性を求められることがデータ公開の背景にあります。
 また既存のデータを使って新たな研究を加速する「データ駆動型研究」が注目を集めています。とはいえ、一つの論文に紐づけられたデータが数百ギガとか、数テラに達することも珍しくありません。どのように提供するか悩ましい。インターネットで海外ともやり取りが活発になっています。どういうスタンダードやフォーマットで取り組むのが望ましいのかを考える必要があります。世界的な標準にのっとってデータを提供していくことが必要です。

未来を拓く「データ駆動型社会」のハブに

――そこで国際的な相互運用性を踏まえた規格が大事になるわけですね。

 学際的な研究の重要性も増しています。私自身、実は大学では生物学を学びました。研究者を志したころはちょうどヒトゲノム解読が進んだ時代でした。遺伝情報の解析という形で生物学と情報学との間につながりが生まれました。そういうこともあって、私の研究分野も次第に情報学にシフトしてきたわけです。
 国立歴史民俗博物館や国際日本文化研究センターなどを傘下におさめる人間文化研究機構の方とお話をしていて、これから人文社会科学系の研究もリンクを充実させていきたいと考えています。幅広い研究者のみなさんにCiNii Researchを有効活用してもらい豊かな学際研究が進むようになればいいと考えています。

―――包括的な学術情報サービスという点では大手学術出版社が独自のサービスを提供しています。NII のような公的な研究機関が提供する意義はどこにあるのですか。

 公平性の立場から重要だと考えています。多くの科学研究は税金を使って行われています。お金を払った人だけが学術情報にアクセスできるというような状況は望ましいとは思えません。
 公共的な基盤が研究成果を世の中に還元していく流れは重要です。米国や欧州でも公的な学術情報基盤を整備する動きが進展しています。米国には米国立生物工学情報センター(NCBI)があり、欧州ではオープンアクセスとオープンデータを掲げたオープンエア(OpenAIRE)プロジェクトがあります。こうしたプロジェクトがそれぞれつながっていこうと努力しています。

―――グローバルな研究活動を活発にする上で、学術情報を人類全体でシェアしていくことが大事ですね。

 新型コロナウイルス感染症のパンデミックへの対応にあたって、研究データの迅速な公開が不可欠なことを痛感しました。過去2年あまりは、米国のリポジトリがその主要な役割を果たしてきました。日本であればNIIの情報基盤が中心になるはずです。
 2003年のSARS(重症急性呼吸器症候群)流行時に比べて情報技術は格段に進歩しています。何か起きた時に迅速に科学が対応できる基盤を、いわば保険として平時に先んじて整備しておく必要があります。
 NIIが運用する学術情報ネットワークSINETがSINET6にバージョンアップし国内の大学や研究機関を結ぶ情報のやりとりがさらに高速化しました。
 NIIのデータ管理基盤(GakuNin RDM)およびデータ公開基盤(WEKO3)と検索基盤であるCiNii Researchの間のデータ連携もスムーズに行われています。
 CiNii Researchが、データ活用を通じて未来を拓く「データ駆動型社会」のハブになることで、多くの研究者に利用していただきたいと思います。

関連リンク
記事へのご意見等はこちら
第96号の記事一覧