Sep. 2022No.96

智の結晶が発見できるCiNii Research 本格始動

NII Today 第96号

Interview

研究領域の「模様」が見える新検索基盤

ディスカバリーを実現しナビゲーションを目指す

CiNii Researchは、研究に関連する情報を「芋づる式」で検索することができる。独自のディープラーニング技術を活用し、論文や研究データ、人物の情報を網羅的に関連させられるようになった。「点だった情報を、布のような面の情報として、研究者に提供できるのがCiNii Researchの特長だ」と語る開発担当者に話を聞いた。

金澤 輝一

Teruhito Kanazawa

国立情報学研究所
コンテンツ科学研究系 准教授

大河原 克行 氏

聞き手Katsuyuki Ohkawara

フリーランスジャーナリスト
IT 業界専門紙「BCN」で編集長を務めるなど、約35 年間に渡り、IT およびエレクトロニクス業界を中心に取材、執筆活動を続ける。著書に「図解 ビッグデータ早わかり」など。

――CiNii Researchの最大の特長はどこにあるのでしょうか。

 CiNii Researchは、大学共同利用機関であるNIIが、学術情報の提供とオープンサイエンスを推進するというトップダウンの理念に、現場の研究者たちが持つ数々の研究成果を反映したボトムアップによる取り組みを組み合わせて生まれた、学術情報を求める人のための情報検索基盤です。ただし、大量のデータを無秩序に置いたままにすると、雑然としたデータの塊になってしまったり、検索した項目だけが表示されても、情報の横のつながりがわからず、研究には使いにくかったりする課題が発生しがちです。
 そこで、CiNii Researchでは、論文、研究プロジェクト、書籍、研究データといった学術情報を検索でき、それに関連する情報にはどんなものがあるのかといった横のつながりを紐づけて情報収集できるものにしています。その点では、CiNii Researchは、単なる検索基盤というよりも、ディ スカバリーを実現し、さらに今後、ナビゲーションを実現するための基盤になることを目指しています。

――従来の検索基盤とはなにが違うのでしょうか。

 最先端の研究者から、若手研究者や学生などの初学者まで幅広い人が学術情報を検索しています。ただ、知識や経験に大きな差があって、検索ワードや検索方法が異なるため、検索結果には差が生まれがちです。また、研究の高度化・細分化にともなって、自分の専門領域から少しでも外れた分野の情報にはうとい傾向が強まっています。でも「畑違い」の情報が刺激となって研究が発展することも多いので本当は広範囲の情報に接したい。こうした研究者の使い方やニーズに合わせたものを、ディスカバリーやナビゲーションと位置づけています。
 関連する意外なものを発見するための目利きの役割を担うのが、ディスカバリーです。一方で、フワっとした要求に対して、ナビゲーターやコンシェルジュといった役割を担いながら、必要なものを提案してくれるのがナビゲーションです。
 CiNii Researchでは、自動化された名寄せ処理1などからなるデータ整備により、現時点ではディスカバリーまでを実現し、関連した情報までを表示できます。しかし、ナビゲーションへの進化はこれからのテーマです。今後も、データが増加するなかで、研究者が迷子にならないように、欲しい情報に効率的にアクセスできるようにしていきます。

絞り込みに最適な切り口をシステムが提示

――ファセット検索2 も用意していますね。

 情報量が増加すると、欲しいものを見つけ出すことが難しくなります。それを支援するために用意しました。これは、絞り込みに最適な切り口を、システムが提示してくれるものです。
 CiNii Researchのファセット検索では、日本語の論文に絞り込むことなどが、文字入力なしでできるようになります。現状では、私たちが考えるナビゲーションというところまでは達していませんが、絞り込みの労力をかなり減らす効果があると思っています。

――CiNii Researchは、2022年4月に、CiNii Articles 3を統合しました。その狙いはなんですか。

 CiNii Articlesは、10年以上前から論文を検索するために多くの研究者に利用されてきましたが、近年では論文だけでなく、引用情報や多様な研究データなどを一括して閲覧する基盤の必要性が高まっていました。CiNii Articlesは、論文を対象とした検索であり、いわば学術情報としてはひとつの「点」としての検索でした。しかし、CiNii Researchでは、論文の検索からスタートしても、図書や研究プロジェクト、研究データを含めた関連情報を結び、点と点がつながり「線」を生むことができます。
 また、学術の動向や研究の本質は、ひとつの線を見ていてもつかむことができません。線と線が結びつき、これを「面」として捉えることが大切だからです。1人の研究者による複数の論文を抽出することで一本の線が縦糸になり、それに対して、同じ研究データやツールを使いながらも異なる結果となっているデータなどが横の線となり、縦糸と横糸が織りなしてできあがる布のような「面」になることで、そこに「模様」が浮かび上がることになります。研究者の関心は、研究領域の「模様」にあります。点や線では見えないものを面で捉えられることが大切で、それによって研究に大きなヒントがもたらされることがあります。CiNii Researchの役割は、研究領域を俯瞰して動向を面で捉えるために日常的に使われるツールになることで、その思いをResearchという名称に込めています。

――CiNii Researchでは、「芋づる式」と表現する検索が特長です。

 CiNii Researchの検索では、最初に検索された「点」の情報から、つながっている関連情報が、縦方向にも、横方向にも広がっていき、検索する人が、検索ワードを考えなくても、クリックしてたどっていくだけで関連する情報を収集できる、いわゆる「芋づる式」に検索できるようになって います。実は、CiNii Articlesでも、「芋づる式」の一部を実現していたのですが、CiNii Researchでは、大幅にその網羅性を高めています。「芋づる式」に引っ張りだされる情報が多いほど、研究者にとって、関連性を持った幅広い情報にたどり着くことができるようになります。

――CiNii Researchで「芋づる式」を進化させることができた鍵はなんでしょうか。

 ひとことでいえば、「名寄せ」の精度を高めることにつきます。たとえば、世間一般では名寄せというと名前の同じ人を見つけて同一人物だと判断する単純な作業だと思われているかもしれませんが、同姓同名の場合には、それを別人であると判断することが難しくなります。さらに、漢字では違っても、ローマ字表記では同じになってしまったり、イニシャル表記になっていると、より判別が難しくなったりします。
 かつてのCiNii Articlesでは、著者が所属している大学や、共著者の情報を加え、判別できる数を増やす工夫をしていましたが、所属が書かれていなかったり、一人でまとめた論文の場合には、同姓同名を分類しにくかったりするので、名寄せしきれないことも多くありました。
 今までのデータベースでは、同姓同名で不確かなところは名寄せをしないでおいたのですが、その結果、同一人物であるにも関わらず、別人として認識され、関連性が表示されない、リンクがはられないといった状況が生まれていたわけです。我々が開発した名寄せシステムでは、ディープラーニングを使ったAIをベースにした新たな技術を導入して、著者同定精度の改善を進め、これまでのシステムでは判断がつかなかった著者の名寄せをできるように改良しました。
 これにより、名前や所属、共著者だけを見て同一人物であると判断するのではなく、研究のトピックが似ているか、似ていないかなども推定できるようになり、より高い精度で同一人物を認識することができるようになりました。
 今まで芋づるが途切れてしまったところの情報がよく引っ張ってこられるようになりました。

検索対象データは6,350万件

――CiNii Researchでは、どれぐらいのデータが検索対象となっているのですか。

 現時点で、約6,350万件のデータが検索対象となっており、そのうち論文が約5,000万件と、約8割を占めます。また、人文社会学系を中心に、科学研究費助成事業データベース(KAKEN) など合計17 種類のデータソースを対象に検索することができます。
 しかし、研究データは13万件とまだ少なく、今後は、この領域を増やしたいですね。IR4 の研究力分析やユニバーシティー・リサーチ・アドミニストレーター(URA)5の研究支援で利用できるような情報も整備していく予定です。
 ただ、論文やその参考文献は、学会や組織によってまったく書き方が異なったり、発行年など必要な項目が空欄になっていたりといったことがよくあります。新たなデータをCiNii Researchに取り込むときには、そうした必要な項目などをよく観察し、これまでの経験に基づいて名寄せが行い やすいように前処理をする必要があります。それには、適切な「レシピ」を組み立てることが必要で、そこで大きな役割を果たすのが、CiNii Researchに関わるデータ品質向上チームになります。期待通りの品質で検索ができるように生のデータをどう処理するべきかのディレクションを担当しています。チームメンバーが持つセンスがそこに生かされています。
 その一方で、なんでもかんでもCiNii Researchにデータを取り込めばいいとは思っていません。
 CiNii Researchは、日本の研究者が携わっている論文や研究成果、日本で推進している研究プロジェクトのデータが守備範囲です。それ以外の部分は、他の学術情報サービスと連携し、CiNii Researchの特長である「芋づる式」のなかで、情報がリンクすればいいと考えています。
 他の学術情報サービスと相互利用するためのAPI 整備を行い、共通化して利用するためのデータ整備も同時に進めていきます。

――金澤准教授が取り組んでいる異分野融合研究支援技術の開発はCiNii Researchと連携していくことになりますか。

 アイデアレベルですが、たとえば、新型コロナウイルスに関する研究情報を調べる際に、CiNii Researchによって、この分野で積極的に情報を発信している研究者を特定したり、最新の研究データにアクセスしたりすることが可能になります。その際に、単に、データモデルの研究成果と、社会科学系の研究データを並べるだけでは、関連性が見えませんが、新型コロナウイルスというテーマを介すると、そこに新たな研究テーマが生まれるといったことが想定されます。また、異分野の研究者同士が結びつくようなきっかけが、構想中のナビゲーション技術を通じて生まれることも期待できます。

―― 今後、CiNii Researchはどんな進化を遂げていきますか。

 2023年度の早い時期には、人物検索を進化させ、人名はもちろん、論文や研究プロジェクト名、所属大学名などからでも人物(プロフィール)を検索できるようにしたいと思っています。ORCID IDやe-Rad 研究者番号6による人物の識別により、紐づけの網羅性を高めることが実現できるでしょう。また、ディスカバリーからナビゲーションへの高度化を図るなかで、ユーザーインターフェースの改良や、データの整備への取り組みも進めることになります。利用者のニーズに対して、緻密に対応できるように進化させていくつもりです。

聞き手からのひとこと

金澤輝一准教授は、CiNii Researchの魅力を、「芋づる式の仕組みによって、見えなかったものが見えるようになるところにある」と語る。研究者にとっては、一般的な検索サービスのように情報そのものにアクセスするよりも、関連する情報を的確に探し出すことが求められる場面が多い。「CiNii Researchが、研究者に新たな発見を促し、研究活動の役に立っていることがうれしい」と金澤准教授。CiNii Researchは、まさに研究者が、研究者のために作り上げた学術情報検索基盤である。

[1]自動化された名寄せ処理
自然言語処理(NLP)技術、機械学習(ML)や深層学習(ディープラーニング)を応用して、同姓同名や同一のイニシャルといった同一人物の候補を所属や共著者、研究トピックの共通性から分別する。

[2]ファセット検索
いろいろな切り口や要素で、サイト検索やコンテンツ選びをできるように、ユー ザーに検索条件を文字で入力させるのではなく、ユーザーがよく使うと考えられる検索条件をサイト側があらかじめ用意。ユーザーはその条件を選ぶだけでコンテンツを絞り込んでいける仕組みのこと。

[3]CiNii Articles
NIIが運営していた日本の学術記事を探す検索サービス。2022年4月にCiNii Researchに統合された。

[4]IR
Institutional Research の略。大学など高等教育機関の計画立案や政策形成、運営や意思決定をするために実施される調査研究活動のこと。

[5]URA
University Research Administrator の略。大学や研究機関などで、研究事業の企画立案、研究資金獲得、資金獲得後のマネジメント、研究成果を社会移転する産学連携、学術広報などの実践や支援に携わる多様な人材をいう。日本では2012年に「リサーチ・アドミニストレーター(URA)を育成・確保するシステムの整備」が開始された。

[6]ORCID ID/e-Rad研究者番号
研究者を識別するためのIDとして世界中で利用されているのがORCID ID。同姓同名の研究者でもIDで識別することができる。e-Rad IDは、日本における府省共通研究開発システム(e-Rad)において、研究者個人に割り当てられるIDで、研究者の所属機関が変わっても継続して使用できる。

関連リンク
記事へのご意見等はこちら
第96号の記事一覧