Mar. 2016No.71

オープンサイエンス開かれたデータの可能性

Article

オープンデータの最前線

“データのWeb”を実現するLODとDOI

世界中に存在する公開可能な論文や研究データを即座に探し出し、自由に連携、利用できるようにするオープンデータ。このオープンデータは、どのような仕組みによって実現されているのか。また、さらなる利便性を確保していくため、現在、どのような取り組みが関係機関によって進められているのか。本研究課題の専門家として海外の状況にも詳しい武田英明教授に聞いた。

武田英明

TAKEDA Hideaki

国立情報学研究所 情報学プリンシプル研究系 教授/総合研究大学院大学 複合科学研究科 教授

"データのWeb"を実現するLOD

 オープンサイエンスを推進していくためには、「誰でも自由に使えて再利用もでき、かつ、再配布できるようなデータ」、すなわち"オープンデータ"の仕組みが重要だ。近年、注目を集め、活用され始めているのが「LOD(Linked Open Data)」。武田教授は「LODは、コンピュータ処理を目的に、データをはじめ、公開者や公開日などのメタデータを構造化し、異なるデータが相互に結びつくことを可能にします。いわば"データのWeb"の実現を目指して誕生したものです」と説明する。

 LODは、自治体や企業、団体など各情報発信主体が標準フォーマットに従ってデータを公開することでデータを相互にリンクさせ、Web自体を巨大なデータベースとして機能させるという構想のもと、欧米を中心に広がりを見せてきた。バイオサイエンス系研究機関と企業による実験データの共有や、図書館での書誌や典拠のデータベース化、自治体による地域統計情報の提供などを皮切りにさまざまな分野でLOD化が進み、データの利活用が行われている。

「端的な例を挙げると、世界中で出版されて図書館に蔵書されている夏目漱石に関する書誌や典拠がすべてつながり、すぐに探して利用できるようになりました」(武田教授)

必要なデータを利用する環境が整備
img71-2.PNG

 LODでは、機械が処理可能なWebリソース情報を表すための表現方法「Resource Description Framework(RDF)」、および、検索のためのコンピュータ言語SPARQL(スパークル)が標準化されている。RDFに基づいて世界中のデータベースに登録された情報を、SPARQLで記述されたアプリケーションを用いて取得し、活用するのだ。

 現在、各国の政府や自治体によって立ち上げられたポータルサイトで行政情報や公共データが公開されているほか、「the Datahub」などのWebサイトで世界中のさまざまなデータセットのカタログ化が行われ、データの取得が可能となっている。加えて「Linked Open Vocabularies(LOV)」などのWebサイトでは、RDFに基づいて構成されるデータの項目を定義した「スキーマ」が提供されており、これを用いることで共通化されたデータベースの構築が可能だ。LODを処理するツールやライブラリも広く提供されており、LODの収集から活用までのシステムを比較的容易に組めるようになっている。

 LODの活用で先行する欧米では、Wikipediaから情報を抽出してLODとして公開する「DBpedia」と呼ばれるコミュニティプロジェクトが普及している。だが、その情報は英語であり、日本からの登録や利用には障壁もあった。そこで、NIIによって2012年5月に公開されたのが「DBpedia Japanese」だ(図)。

 このDBpedia Japaneseは武田教授が進めるLODAC Projectの一つとして行われている。

 「DBpedia Japanesの目的は、Wikipedia 日本語版を対象としたDBpediaの提供です。LODAC Projectではこのほか、ばらばらであってもつながるというLODの特徴を活かして、日本国内の博物館、美術館の収蔵品情報をLOD化し、日本最大の収蔵品データベースや生物多様性情報のための生物種情報のデータベースを構築しました」と武田教授。そのほかにも、共通語彙基盤上でのデータの収集、公開の仕組みを着々と整えつつある。

論文の電子化で生まれたDOI

 オープンデータの活用に向けた取り組みには、「デジタルオブジェクト識別子(Digital Object Identifier:DOI)」もある。DOIとは、学術論文に識別子を付加するとともに、論文のURLと、公開日、公開者などが判別できるようなメタデータを登録することでインターネット上のデジタルオブジェクトに持続的にアクセス可能とする技術だ。

 「DOIは学術論文誌が電子化され始めた1990年代に、出版社によって共同で考案されました。電子化された論文の所在をURLで記した場合、WebサイトのリニューアルなどでURLが変更されるとアクセスできなくなるケースがあります。そこで、URLとは別に論文自体にユニークなIDを付加することで、URLの変更にも対応可能にしたわけです」(武田教授)

 DOIを論文に付与することで所在が常にわかるようになったほか、引用文献の同定も容易となる。現在、世界最大のDOI登録機関である米国のCrossRefでは、全世界7040万報以上の学術論文にDOIを付与・登録し、引用・被引用文献へのリンクを実施。いまや、研究に不可欠な共通基盤として活用されている。

 一方、日本から登録される情報は、言語の障壁などもあり、150万報程度に留まっていた。そこで、DOIの普及と日本語による学術コンテンツへのアクセスと利便性向上を目指し、国立研究開発法人 科学技術振興機構(JST)、国立研究開発法人 物質・材料研究機構(NIMS)、国立国会図書館(NDL)、そしてNIIによって「ジャパンリンクセンター(JaLC)」が設立された。国内の学術コンテンツを扱う各機関の参加も求め、DOIの普及や国内外情報サービスの利便性向上に向けた取り組みが進められている。

 「近年では、DOIを論文だけでなく、研究データにも付加することでオープンサイエンスの有望なインフラにしようという研究が行われています」と武田教授は言う。JaLCでは国内研究機関などとともにDOIデータの登録実験プロジェクトを実施。今後のシステム構築や運用における課題を抽出し、データDOIの本格的な活用に向けた取り組みを推進している。

 「LODが誰もが公開可能なデータであるのに対して、DOIはデータの出自が明らかで信頼性がある程度保証されたものです。両者のデータに互換性を与え、自由に連携させれば、さらに研究活動に広がりをもたせられる。実現に向けて、各分野の方々と協調しながら一つひとつ課題を解決していきたいと考えています」と武田教授は話す。

 「今後、オープンデータは研究開発のスピードアップにとどまらず、社会の仕組み自体を変えていくでしょう。データのみならず、やがてはデータを生み出した人同士が直接つながってコラボレーションが実現し、新しいイノベーションが創出されるようになる。そうなると、今までの企業や組織という枠組みのあり方も激変していくかもしれません」

(取材・文=伊藤秀樹 写真=佐藤祐介)

第71号の記事一覧