![]() |
D-Lib Magazine
|
Herbert Van de Sompel Michael L. Nelson Carl Lagoze Simeon Warner |
![]() |
摘要情報資源の保存と発見という目的から、メタデータだけではなくデジタルリソースそのものを、どのようにしたらオープン・アーカイブ・イニシアティブ・メタデータ・ ハーベスティング・プロトコル(OAI-PMH)を使ってハーベストできるかを検討する。まず、OAI-PMHでハーベストされるメタデータを使ってデジタルリソースを識別・ 収集する既存の技術を紹介し評価する。ついで、デジタルリソースをより正確に記述することのできる複合オブジェクトフォーマットを使用した別の解決法を紹介する。 そして、複合オブジェクトフォーマットをOAI-PMHメタデータフォーマットとして使用すると、OAI-PMHを使ってリソースの差分ハーベスティングを行う信頼性の高い魅力的な アプローチになることを論ずる。 はじめにOAI-PMH[Lagoze et al. 2002]は、メタデータをハーベストする方法として広く採用されている。このメタデータは、それ自身は OAI-PMHデータモデルの適用範囲外であるリソースに付随する。提供されるメタデータは一般に記述的な性格のものであり、ダブリンコア[注1]や MARCXML[注2]など、複雑さの異なる様々なメタデータフォーマットで表現されている。 最近になって、OAI-PMHにおけるメタデータの構成要素に対してより自由な解釈を示す利用例が現れてきた[Van de Sompel, Young and Hickey, 2003]。 たとえば、ロスアラモス国立研究所(LANL)とオールド・ドミニオン大学による共同プロジェクトでは、ハーベスト可能なデジタルリソースに付随する利用情報を作成する方法として OAI-PMHを使用している。このプロジェクトにおいて、公開される各メタデータレコードは対象となるデジタルリソースのアクセス履歴を手短に記述している。 本稿において、我々はメタデータが記述的性格のものであるという観点を保持する。ただし、記述的メタデータの範囲を、単なるダブリンコアやMARC、その他の書誌的フォーマット 以上のものに拡大する。 このことにより、デジタルリソースを記述する上で、より複雑で表現力が高く正確なメタデータフォーマットを導入することが可能となる。このようなフォーマットは既に 存在しており、一般に複合オブジェクトフォーマットと呼ばれている。たとえば、MPEG-21 DIDL[注3]やMETS[注4]、 SCORM[注5]などである。これらの複合オブジェクトフォーマットとOAI-PMHを組み合わせると、デジタルリソースのハーベスティングを実現する 信頼性の高いフレームワークとなる。 問題の所在記述的メタデータだけでなくリソース自体を相互運用可能な方法でハーベストできるようにしたいという要求が高まっている。特に次の2つの利用例がこれを必要としている。
これらの利用例はすでにオランダ[注6]や英国[注7]、ドイツ[注8]における デジタルライブラリプロジェクトや機関リポジトリプロジェクトの中で議論されている。保存の利用例は、全米デジタル情報基盤保存プログラムのアーカイブ・ エクスポート/受入作業[注9]にも現れている。発見の利用例はウェブサーチエンジンの分野でも見られる。この分野では 検索技術の洗練さとコンテンツの利用範囲が競争要因となっている。そのため、サーチエンジン提供機関はデジタルライブラリや機関リポジトリに保管されている 「Webの奥深くにある」コンテンツにますます興味を持つようになっている。このことは、主要なウェブサーチエンジンがOAIster [注10]や OCLC [注11]、 arXiv [注12]、NSDL [注13]と共同研究を行っていることからも裏付けられる。 したがって、広く採用されているOAI-PMHをコンテンツ収集要求に応える手段として使用できないかを検討することは興味深いことである。 OAI-PMHリポジトリにより公開されるメタデータを通じてデジタルリソースを間接的に収集する方法は既にたくさん存在する。リポジトリで公開されているダブリンコア メタデータは、ほとんどの場合、あるネットワークロケーションで入手可能なデジタルリソースを記述している。これらのデジタルリソースおよび入手可能な場所を示す ネットワークロケーションは一般にOAI-PMHリポジトリを運営するデータプロバイダの管理下にある。このような場合にコンテンツを収集する一般的なアプローチは次の通りである。
このアプローチには次のような2つの大きな問題点がある。
既存のアプローチリソースの差分ハーベスティングが必要とされたため、上記の問題を克服するための多くの技術が開発された。しかし、提案された技術はすべて、問題の 一般的な解決法としてはふさわしくない問題を抱えていた。 その一例が、NACAテクニカルレポートサーバ[Nelson, 1999]と英国のMAGiCプロジェクト[Sidwell, Needham & Harrington, 2000]の 間のミラーリング協定である。共に歴史的な航空工学レポートのコレクションであったが、スキャンしてコレクションに追加する頻度が断続的かつ不規則であったので、両サイトの間で 同期を取る必要があった。両サイトともOAI-PMHリポジトリであったので、コレクションへの新規追加を知るためにOAI-PMHインターフェースを使用することにした。メタデータ レコードのOAI-PMH日付スタンプがリソース(PDFファイル)をハーベストするためのトリガーとして使用された。リソースの性格上、メタデータの 更新なしにリソースが更新されることはほとんどないので、表1で示した更新を見逃す危険は非常に小さいと思われた。しかし、この方法では多くの問題が生じた。そのため、 担当者間の連絡が重要となり、ケースバイケースの対応が必要となった。
こうした問題があったので、NACA/MAGiCミラーリングアプローチをアーカイビングという意味で一般化することはできない。 システム開発者はデジタルリソースのネットワークロケーションをダブリンコアメタデータレコード内で表現する様々な方法を提案してきた。従来からある発見的方法の1つは、 ダブリンコアレコードの1番目のdc.identifier要素にリソースのURLを設定する方法である[Young, 2004]。もう1つの方法(例1)は、リソースの ネットワークロケーションをdc.format要素に設定して伝達する方法である。下に示したように、リソースのMIMEタイプの後ろにURLを記述する [Freed & Borenstein, 1996]。 リソースのURLをdc.relation要素に設定して伝達する方法(例2)もある。また、例2と同様にリソースのURLをdc.relation要素に設定し、さらにdc.identifier要素で 指定する書誌的スプラッシュページのURLとは異なるスプラッシュページのURLを第2のdc.relation要素に設定する方法(例3)もある。 これら3種類の方法はすべてEPrintsシステム[注15]をインストールしたリポジトリに見られるものである。例1から例3は同じリソースを3種類の 方法で記述したものである。なお、例1はOAI-PMHリポジトリから直接採取したものであるが、例2と例3は他のリポジトリで使用されている技術をモデル的に示したものである。 OAI-PMHを実装した単一のソフトウェアにおいても一般的な方法が存在しないということは、メタデータだけでなくコンテンツも収集する必要があるアプリケーションに とっては大きな負担である。
書誌的スプラッシュページのURLをdc.identifierに設定し、リソースのURLを特別な目的のXHTMLの<link>要素に指定するという別の方法 [Tourte & Powell, 2004]も提案されている。この方法はスプラッシュページの存在を仮定しており、提案された取り決めに従うOAI-PMHリポジトリ からハーベスティングすることをハーベスタが選択できることを要請している。さらに、コンテンツ変更の指標としてはやはりメタデータレコードのOAI-PMH日付スタンプが 使われているので、リソースが更新されたことを見逃す可能性が残っている。 このように様々な方法が存在するということは、リソースハーベスティングに欠かせない情報を明確に表現するための十分かつ厳密なセマンティクスを限定子なしのダブリンコアが 持っていないことを示している。これを受けて、システム開発者は問題を解決するために、より表現力を持つ限定子付きのダブリンコアフォーマットの使用を検討し始めた。実際、 限定子付きのダブリンコアは様々な種類の識別子やロケータの違いを明確に表現する力を持っている。しかし、限定子付きダブリンコアフォーマットをどのように使用したら OAI-PMH日付スタンプの問題を解決できるのかは不明である。また、この問題はコンテンツ収集のための信頼のおける解決法の一部として解決されるべきである。 より表現力の高い複合オブジェクトフォーマットが存在し、採用され使用されつつある。目的に合わないメタデータフォーマットにむりやり合わせて解決をはかるより、 こちらの道を追い求めた方が建設的であると思われる。これが本稿の残りで提案する解決法である。 この問題をより根本的な方法で解決しようと試みているプロジェクトが少なくとも1つ存在する。OA-X[注16]は、コンテンツを収集することを唯一の目的とする 新しいリクエストverbを導入してOAI-PMHを拡張した。プロトコルの拡張は限定的な状況では成功しているが、一般化には失敗している。リソースハーベスティングのような 新しい利用例が発生した場合、既存のOAI-PMH処理システムがそのまま使用できるような方法を第一にまた十分に探ることが重要である。 OAI-PMHフレームワークを使った解決法: 複合オブジェクトフォーマットをOAI-PMHメタデータフォーマットとして使用する上で述べた例は、OAI-PMHの拡張やOAI-PMHとは別の何らかの特別な取り決めをすることにより、リソースのハーベストが可能であることを示している。しかし、 これらの技術はどれもその一般性や限定性を妨げる問題を抱えている。これらの問題はある応用にとっては単なる不満に過ぎないかもしれないが、他の応用にとっては 受入れがたいものとなる。保存がまさにそうである。保存の目的は対象のデータリポジトリと完全に同期の取れたアーカイブを作成することである。この問題はリソース発見 サービスのためのリソースハーベスティングにとっても障害となる。このサービスはリポジトリのコンテンツが索引に正確に反映されていることに依存しているためである。 OAI-PMHの適用範囲内において厳しい要求をもつこれらの利用例に対応するために、デジタルリソースの記述においてより複雑かつ表現力が高く正確なメタデータフォーマット の使用を導入する。これらのフォーマットは特にデジタルオブジェクトを表現する目的で定義されている[Kahn & Wilensky, 1995]。 複合オブジェクトフォーマットデジタルオブジェクトを表現する表現力の高いフォーマットがいくつかのコミュニティから提案されており、一般に複合オブジェクトフォーマットと呼ばれている。 複合オブジェクトの歴史についてはネルソンら[Nelson, et al., 2001]により調査されている。最近の例としては、MPEG-21 DIDL [注3]、 METS [注4]、SCORM [注5]などが挙げられる。複合オブジェクトフォーマットは一般に次のような特徴を持っている。
OAI-PMHのデータモデルと複合オブジェクトフォーマット図1はOAI-PMHデータモデルの定義でいうリソースがデジタルコンテンツである場合のOAI-PMHデータモデルを図示したものである。この図では本稿で述べる 記述的メタデータに関する拡張した概念を導入しており、次のように解釈されるべきである(以下、OAI-PMHの概念はイタリック体で示す)。
図1ではOAI-PMHデータモデルに複合オブジェクトフォーマットを導入している。図では、複雑さと正確さの度合いをつけて記述的メタデータを表示している。 ダブリンコアメタデータは、リソース発見を目的とする最低限のダブリンコアメタデータフォーマットによりリソースを記述する。MARCXMLメタデータは、 目録作成を目的としたより複雑で表現力の高いMARCメタデータフォーマットによりリソースを記述する。MPEG-21 DIDL XML文書およびMETS XML文書は デジタルオブジェクトを正確に記述することに焦点をあわせたさらに複雑なフォーマットによりリソースを記述する。このフォーマットは、 記述/権利/技術/構造/出所メタデータなどリソースに付随するさまざまな二次情報を表現することができる。また、識別子を曖昧なく伝達することや、 リソース自体を参照や値埋め込みにより含めることも可能である。このフォーマットはあらゆる種類のデジタルオブジェクトを表現するために使用することが できる。すなわち、含まれるデータストリームの種類や数に関わらずデジタルオブジェクトを表現することが可能である。様々な種類のリソースを記述する 能力がメタデータフォーマットの中心的特性であることに注目することが重要である。それこそが、メタデータフォーマットとファイルフォーマットを区別する 特性だからである。この意味で、複合オブジェクトフォーマットをメタデータフォーマットとみなすことは合理的である。この見解は、METSという名称自体が 支持している。METSとはMetadata Encoding and Transmission Standard(メタデータ符号化伝送標準)の略だからである。 例4は、MPEG-21デジタルアイテム記述言語(DIDL: Digital Item Description Language)でリソースを表現したものである。リソースは例の1から3において ダブリンコアメタデータで記述したものと同じである。リソースをDIDLで記述した場合の基本的特徴は次の通りである。
例4は、MPEG-21 DIDLを使って得られる多くの表現のうちの1つを示したものにすぎない。MPGE-21 DIDLをはじめとする複合オブジェクトフォーマットはきわめて用途が広いので、 同じリソースから様々な表現を作り出すことができる。しかし、上で述べた共通の特徴により、これまでに示した複合オブジェクトフォーマットはすべて、 以下をサポートする。
OAI-PMHに複合オブジェクトフォーマットを使用する複合オブジェクトフォーマットとOAI-PMHの組み合わせは、これまで議論されてきたコンテンツ収集にまつわる問題に取り組むための魅力的な選択肢である。 表2に、複合オブジェクトメタデータフォーマットがいかにOAI-PMHデータモデルに適合するかを示した。このアプローチの魅力的な特徴は次の通りである。
OAI-PMHフレームワーク内において複合オブジェクトフォーマットを使ってリソースハーベスティングを行う一般的なシナリオは以下のとおりである。
OAI-PMHと複合オブジェクトフォーマット: 既存の実装例様々なプロジェクトで既にOAI-PMHと複合オブジェクトフォーマットを組み合わせて使用する方法が研究されている。この節ではいくつかの事例を紹介する。 ロスアラモス国立研究所リポジトリロスアラモス国立研究所(LANL)研究図書館では、デジタルオブジェクトをMPEG-21 DIDLを使って表現し、デジタルライブラリ・リポジトリの保存用情報パッケージ(AIP) として使用している[注18]。OAI-PMHはリポジトリアクセスプロトコルとして使用されている。ダウンロード専用アプリケーションがListRecords リクエストを使って、日付スタンプとセットに基づいて、コンテンツを差分ハーベストしている。単体のAIPの配信要求にはGetRecordリクエストを使用している。この 方法は2004年6月から実用ベースで使用されている。この方法を取るに至った研究については報告がある[ Bekaert, Hochstenbach & Van de Sompel, 2003、Bekaert et al., 2004、Jerez, et al. 2004]。 本稿執筆時点で、LANLリポジトリは1500万件のAIPを持っており、今後12ヶ月でその数は3倍になると予想している。リポジトリのインフラとしてはOCLCのOAICat [注19]やOAIHarvester[注20]、OAI View[注21]など出来合いのOAI-PMHツールを使用している。 例5にLANLリポジトリにおけるMPEG-21 DIDLとOAI-PMHの使用例を示す。
ロスアラモス国立研究所における米国物理学会コレクションのミラーリングロスアラモス国立研究所(LANL)研究図書館では、OAI-PMHを使って米国物理学会(APS)のコレクションを正確かつタイムリーにミラーリングすることを目的とするもう1つ別の プロジェクトを行っている。このプロジェクトにおけるミラーリングとは、LANLにおけるAPSコレクションの複製を意味しており、APSのアプリケーションやAPSで使用されている 低レベルのストレージ法やリポジトリシステムの複製を意味しているのではない。APSが作成するデジタルオブジェクトは一般に複数のデータストリーム、すなわち、表現力の高い 記述メタデータ、様々なフォーマットの研究論文、および、データセットやビデオ録画などの補助資料などから成る。プロジェクトでは、このようなオブジェクトを複合 オブジェクトして、アクセス制限を設けた既存のAPS OAI-PMHインターフェースを使って公開している。ここでも複合オブジェクトフォーマットとしてはMPEG-21 DIDLを使用しており、 APSはデジタルオブジェクトをDIDL XML文書として表現できるようOAI-PMHインターフェースにモジュールを組み込んでいる。LANLは定期的にOAI-PMHハーベスティングを行うことで APSから更新あるいは追加されたコンテンツを収集している。ここで、コンテンツの正確な複製は公開される複合オブジェクトのOAI-PMH日付スタンプのセマンティクスにより 保証されている。一般的なメタデータハーベスティングの場合と同様に、690GBに及ぶAPSリポジトリのすべてをOAI-PMHを使ってハーベストできるとは考えなかった。そこで、 ある日付分までのAPSアーカイブは物理的メディアを使って搬送し、その後は、APSリポジトリで行われた更新をOAI-PMHを使ってハーベストすることにした。 本稿執筆時点において、継続中の実験結果からこの方法で首尾よく実運用に移行できることが示されている。例6にAPS/LANLミラーリングプロジェクトにおけるMPEG-21 DIDLと OAI-PMHの使用例を示す。
DSpaceおよびFedoraのプラグインOAI-PMHフレームワーク内でコンテンツをハーベストする可能性をより広く示すために、LANL研究図書館はDSpace v.1.2システムのための実験的なプラグイン [注22]を作成した。このプラグインにより、DSpace[注23]の既存のOAI-PMHインターフェースを使って、 アイテムをMPEG-21 DIDL XML文書として公開することが可能となる。このプラグインをインストールすることにより、DSpaceリポジトリのコンテンツの ミラーリングや、メタデータだけでなくDSapceのコンテンツを使ったサービスの構築などを容易に実験することができる。プラグインは値埋め込みに より配信するビットストリームの最大サイズを指定することができるので、運用環境に合わせてハーベスティング負荷を調整することが可能である。 最大サイズを0にするとすべてのビットストリームは参照により配信されるので、ハーベストする側のスケーラビリティ問題を避けることができる。 Fedoraリポジトリ向けに同様な実験的プラグインを作成するプロジェクト[注24]も立ち上がっている。例7にDSpace DIDLプラグインを インストールしたDSpaceリポジトリにおけるMPEG-21 DIDLとOAI-PMHの使用例を示す。
mod_oaimod_oaiはメロン財団の助成を受けたオールド・ドミニオン大学とLANL研究図書館の共同プロジェクトであり、OAI-PMHセマンティクスをWebクローリング技術に導入する ことを目的としている[注25]。Webサーバに代わって自動的にOAI-PMHリクエストに応えるApacheモジュール(mod_oai)を開発している。 Apacheとmod_oaiを次のサイトにインストールしたとすると http://www.foo.edu/ OAI-PMHリポジトリのベースURLは次のようになる。 http://www.foo.edu/mod_oai httpアクセスコントロールの設定にもよるが、mod_oaiはOAI-PMHレスポンスとして3種類のメタデータフォーマットを提供する。まず、ダブリンコアが 提供されるが、その内容はファイルサイズやMIMEタイプといった技術メタデータのみである。http_headerという新しいメタデータフォーマットが導入され、 通常のWebクローラがリソースを収集する場合に返されるすべてのhttpレスポンスヘッダーを含んでいる。 3番目のメタデータフォーマットはoai_didlであり、これはWebリソースをMPEG-21 DIDLフォーマットで表現したものである。この表現にはhttp_headerフォーマットに 含まれるメタデータに加えて、Webリソース自体が、参照、値埋め込み、あるいはその両者の形で含まれている。 mod_oaiの一般的な使用法には次の2種類が存在する。1つは、通常のWebクローラが追加すべき新規URLを識別する方法としてListIdentifiersのみを発行することであり、 今1つは、ListRecordsを使って、oai_didlフォーマットでリソースを取り込むことである。例8にmod_oaiモジュールをインストールしたApache Webサーバにおける MPEG-21 DIDLとOAI-PMHの使用例を示す。
リソース発見および保存の両面でmod_oaiの利用は注目されると思われる。発見の面では、mod_oaiは日付スタンプとセット(MIMEタイプ)を使った差分ハーベスティングの セマンティクスを提供する。保存の面では、mod_oaiはWebサイト全体をAIPに変換し、将来の再構築のために保管することを可能とする。 さらに、http_headerメタデータは、それ自身あるいはoai_didlメタデータフォーマットに含まれているもののどちらも、リソースについての完全なhttpヘッダ情報を提供する。 この情報は標準的なOAI-PMHの利用方法では得られない情報である。大規模なWebクローリング実験で報告されている「Last-Modified」ヘッダや「Etag」ヘッダの異常を 考えると、mod_oaiレスポンスは標準的なWebクロール技術より正確にコンテンツを収集する機能を提供する可能性がある。 考察複合オブジェクトフォーマットをメタデータフォーマットとしてOAI-PMHフレームワークに導入することによりリソースハーベスティング問題に一般的で確実な解決法を 得ることができる。セットや「about」コンテナといった既存のOAI-PMH概念もすべて利用可能である。OAI-PMH日付スタンプの概念を複合オブジェクトに適用すると新規 および更新されたリソースをハーベストするための信頼できる手法を得ることができる。この解決法は完全にOAI-PMH我ームワークの範囲内であるので、広く使用されている 既存のOAI-PMHツールを使って実装することができる。つまり、単に新しいメタデータフォーマットを決めて実装するだけである。 この解決法はアーカイブのエクスポート/受入に関する魅力的なパラダイムを提出する。なぜなら、コンテンツをアーカイブ間で移動させるという概念がアプリケーションとは 独立のプロトコルに基づいた方法で処理され、また、一般にミラーリング解決法よりも抽象的なレベルで処理されているからである。実際、多くの場合、ミラーリングアプローチは ファイルやファイルシステム、ディスクシステムといった低レベルのセマンティクスやアプリケーションを完全にミラーすることに焦点を置いている。本稿で提案するアプローチは これとは異なり、図2に示すようにコンテンツ移動に関してOAIS参照モデルにきれいに当てはめることができる。この図は、アーカイブ2がアーカイブ1をミラーリング するシナリオである。一般に、アーカイブ1とアーカイブ2は異なる環境で運営され、技術的な構成も異なる。このような技術的多様性は単に現実的であるというより、 保存という観点からは要件となるべきものであろう。スケーラビリティの観点からは、コンテンツの複製物を安全に保管するためにアーカイブ1の技術的環境を アーカイブ2にも実装するということは現実的ではない。むしろ、アーカイブ2は、アーカイブ1のコンテンツを自身のコンテンツやアーカイブ1以外の アーカイブからのコンテンツと同様に扱った方が合理的であろう。 本稿で提案するパラダイムでは、アーカイブ1はOAI-PMHインターフェースを通じて配布用情報パッケージ(DIP)を公開する。このDIPは、アーカイブ内部の保存用情報 パッケージ(AIP: 図2のAIP1)を複合オブジェクト表現にマッピングしたものである。この複合オブジェクト表現は、アーカイブ1およびアーカイブ2のどちらの 技術的・構成的環境の特徴も反映していないという意味でアプリケーション独立である。OAI-PMHにより移動する際、このアーカイブ1のDIPはアーカイブ2に対する 提出用情報パッケージ(SIP)となる。移動が済むと、アーカイブ2はこのSIPを処理して受け入れる。すると、このSIPはアーカイブ2に保管されている他のすべての AIPと同じAIPとなる(図2のAIP2)。従って、各アーカイブがリソースをAIPとして内部的にどのように表現しているかは重要でない。重要なことは、アーカイブ間で移動される ものがアプリケーション独立の複合オブジェクト表現であるということだけである。
複合オブジェクトフォーマットは複数存在し、各フォーマットを使ってリソースを表現する方法もたくさん存在するので、OAI-PMHフレームワークによる解決法を 使ってコンテンツを移動する真に相互運用可能なアプローチを実行するには、利用可能な自由度を制限する仕様が必要になるだろう。 複合オブジェクトで表現したコンテンツを移動させる場合に注意しなければならないもう1つの問題はサイズが非常に大きいレコードの移動である。データストリームを参照ではなく 値埋め込みで配信する場合に特に問題が生じる可能性が高い。サイズの大きいレコードはリポジトリを公開している実装システムに問題を引き起こすことがある。なぜなら一般に システムはレコードを転送する前にレコードの全体あるいは一部をメモリ上に展開する必要があるからである。またサイズの大きいレコードはハーベスタがレコードをメモリ上に 読み込み、解析する際にも問題を引き起こす可能性がある。これまでに紹介したほとんどのプロジェクトではOAI-PMHリポジトリが値埋め込みで配信するデータストリームのサイズに 制限を設け、この制限値を越えるサイズのファイルは参照により配信する機能を設けている。そうすることで、リポジトリはサイズに関わるシステム内部の問題を管理することが 可能となる。しかし、このような方法は必ずしもハーベスタの助けとはならない。なぜならハーベスタの制限値がハーベストされるリポジトリの制限値より厳しい場合が あるためである。したがって、この問題はさらなる研究が必要である。この問題の解決法としては、ビットストリームをすべて参照により配信することや、 OAI-PMHにはない何らかのネゴシエーション機能を導入することなどが考えられる。 注意を要するもう1つの問題として、リソースに適用する権利の表現が上げられる。実際、一般的な記述的メタデータではなくリソースを移動させる場合は、権利に関する問題は さらに重要となる。現在、権利表示をOAI-PMHフレームワーク内で伝達することを目的とした活動が行われている。この種の活動の最初の成果がメタデータに付随する権利表示を いかに伝達するかを規定した実装ガイドラインである[Lagoze et al., 2004]。リソースの複合オブジェクト表現であるメタデータにこの規定が 適応できるかどうかは興味深い。そのようなメタデータに付随する権利はリソースに付随する権利と同じであるだろうか。もし同じであれば、リソースに付随する権利表示の 伝達という問題に取り組むためにメタデータの権利表示に関する既存の規定を使うことができるかもしれない。もし同じでなければ、リソースに付随する権利を表すために 別の規定を策定して使用する必要があるだろう。 結論OAI-PMHによるリソースハーベスティングに対する既存のアプローチには多くの問題がある。本稿では策定済のOAI-PMHフレームワークの範囲内に収まる別の解決法を提示した。 この解決法ではデジタルリソースを記述するために、より記述力の高いメタデータフォーマットである複合オブジェクトフォーマットを導入している。 複合オブジェクトフォーマットはリソースの識別子とリソースのロケーションを明確に区別することができる。すなわち、ダブリンコアのこの点における表現力の欠如を 改善する。さらに、複合オブジェクト表現に対するOAI-PMH日付スタンプの概念を正しく解釈することにより、表現されたリソースの構成要素が変更されるたびに変更される 日付スタンプを得ることができる。その結果、リソースの差分ハーベスティングを行うための信頼できるトリガーを得ることになる。 本稿ではまた、OAI-PMHと複合オブジェクトフォーマットを使ってリソースハーベスティングを行うための真に相互運用可能なフレームワークを実現するために考えなければ ならない問題を明らかにした。複合オブジェクトフォーマットを選択し実装する際に利用できる自由度の削減、サイズの大きいリソースをハーベストするためのシナリオの考察、 ハーベスト可能なリソースに付随する権利の伝達などである。もちろん、提案したアプローチを多くの人が実行すればさらに多くの問題が現れるだろう。 我々は、本稿で述べた技術がハードルの低い、幅広く利用可能なリソースハーベスティングの解決法を求める声に応えるものであると確信している。これまでの我々の経験から この解決法が実現可能であることが示されている。また。この解決法はOAI-PMHの仕様に合致しているので、既存のOAI-PMHシステムに適用することは容易であろう。 考察で述べたように、完全に適用するには多くの問題が残っているが、2005年のうちに完全な仕様を作成する活動の中でこれらの問題を解決したいと 考えている。それには、これまでの活動同様、OAIコミュニティからの技術的助言を必要とする。 参考文献Bekaert, Jeroen, Patrick Hochstenbach, and Herbert Van de Sompel. 2003. "Using MPEG-21 DIDL to Represent Complex Digital Objects in the Los Alamos National Laboratory Digital Library," D-Lib Magazine, Volume 9, Number 11, November 2003. <doi:10.1045/november2003-bekaert>. Bekaert, Jeroen, Patrick Hochstenbach, Lyudmila Balakireva and Herbert Van de Sompel. 2004. "Using MPEG-21 and NISO OpenURL for the Dynamic Dissemination of Complex Digital Objects in the Los Alamos National Laboratory Digital Library,". D-Lib Magazine, Volume 10, Number 2, February 2004. < doi:10.1045/february2004-bekaert>. Clausen, Lars. 2004. "Concerning Etags and Datestamps," Fourth International Web Archiving Workshop, ECDL 2004, Bath UK. < http://www.netarchive.dk/website/publications/Etags-2004.pdf>. Freed, N. and N. Borenstein. 1996. "RFC 2045: Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies," November 1996. <http://www.ietf.org/rfc/rfc2045.txt?number=2045>. Jerez, Henry, Xiaoming Liu, Patrick Hochstenbach, and Herbert Van de Sompel. 2004. "The multi-faceted use of the OAI-PMH in the LANL Repository," Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries, June 7-11 2004, Tuscon, AZ, USA. pp 11-20. < doi:10.1145/996350.996355>. Kahn, Robert and Robert Wilensky. 1995. "A Framework for Distributed Digital Object Services. Corporation for National Research Initiatives," <http://www.cnri.reston.va.us/k-w.html>. Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2002. "The Open Archives Initiative Protocol for Metadata Harvesting, Version 2.0". June 2002. < http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm>. Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2004. "OAI-PMH Implementation Guidelines: Conveying rights expressions about metadata in the OAI-PMH framework". < http://www.openarchives.org/OAI/2.0/guidelines-rights.htm>. Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2002. "OAI-PMH Implementation Guidelines: Specification and XML Schema for the OAI Identifier Format". < http://www.openarchives.org/OAI/2.0/guidelines-oai-identifier.htm>. Lossau, Norbert. 2004. "Search Engine Technology and Digital Libraries: Libraries Need to Discover the Academic Internet," D-Lib Magazine, Volume 10, Number 6, June 2004. <doi:10.1045/june2004-lossau>. Maly, Kurt, Michael Nelson, and Mohammad Zubair. 1999. "Smart objects, dumb archives: a user-centric, layered digital library framework." D-Lib Magazine, Volume 5, Issue 3, March 1999. <doi:10.1045/march99-maly>. Nelson, Michael. 1999. "A digital library for the National Advisory Committee for Aeronautics,"NASA/TM-1999-209127. <http://techreports.larc.nasa.gov/ltrs/PDF/1999/tm/NASA-99-tm209127.pdf>. Nelson, Michael, Brad Argue, Miles Efron, Sheila Denn, and Maria Christina Pattuelli. 2001. "A Survey of Complex Object Technologies for Digital Libraries," NASA/TM-2001-211426. <http://techreports.larc.nasa.gov/ltrs/PDF/2001/tm/NASA-2001-tm211426.pdf>. Osborne, Shaun. 2004. "Museums and Images JISC-FAIR Cluster Group - Images and Harvesting Issues Paper". <http://www.fitzmuseum.cam.ac.uk/htf/docs/M&I_IP_Images_jul04.doc>. Summann, Friedrich and Norbert Lossau. 2004. "Search Engine Technology and Digital Libraries: Moving from Theory to Practice," D-Lib Magazine, Volume 10, Number 9, September 2004. <doi:10.1045/september2004-lossau>. Sidwell, C. A., P.A.D. Needham, and J.D. Harrington. 2000. "Lightening grey literature: Making the invisible visible," New Review of Information Networking, Volume 6, pp 121-136. Tourte, Greg, and Andy Powell. 2004. "Encoding full-text links in the eprint jump-off page. Draft Version 1.0," <http://www.rdn.ac.uk/projects/eprints-uk/docs/encoding-fulltext-links/>. Van de Sompel, Herbert and Carl Lagoze. 2002. "Notes from the Interoperability Front: A Progress Report on the Open Archives Initiative," Lecture Notes In Computer Science. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Libraries. pp 144-157. Van de Sompel, Herbert, Jeff Young and Thom Hickey. 2003. "Using the OAI-PMH ... Differently," D-Lib Magazine, Volume 9, Number 7/82, July/August 2003. <doi:10.1045/july2003-young>. Young, Jeff. Extensible Repository Resource Locators (ERRoLs) for OAI Identifiers. <http://www.oclc.org/research/projects/oairesolver/default.htm>. 注[1] DC, <http://dublincore.org/documents/dces/> [2] MARCXML, <http://www.loc.gov/standards/marcxml/> [3] MPEG-21, Information Technology, Multimedia Framework, "Part 2: Digital Item Declaration," ISO/IEC 21000-2:2003, March 2003. [4] METS, <http://www.loc.gov/standards/mets/> [5] Advanced Distributed Learning, "The Sharable Content Object Reference Model (SCORM) - Version 1.3 - WD," March 2003 [6] DARE, <http://www.surf.nl/en/themas/index2.php?oid=7> [7] JISC FAIR, <http://www.jisc.ac.uk/index.cfm?name=programme_fair> [8] DINI, <http://www.dini.de/> [9] National Digital Information Infrastructure and Preservation Program, <http://www.digitalpreservation.gov/> [10] OAIster, <http://oaister.umdl.umich.edu/o/oaister/> [11] OCLC, <http://www.oclc.org> [12] arXiv, <http://arXiv.org> [13] NSDL, <http://www.nsdl.org> [14] DC, Resource Identifier <http://dublincore.org/documents/dcmi-terms> [15] eprints.org, <http://www.eprints.org> [16] OA-X, <http://www.i-tor.org/oa_x/retrieving_objects/> [17] MPEG-21, Information Technology, Multimedia Framework , "Part 3: Digital Item Identification," ISO/IEC 21000-3:2003, March 2003. [18] International Organization for Standardization. "ISO 14721:2003. Space data and information transfer systems -- Open archival information system (OAIS) -- Reference model (1st ed.)". 2003. Geneva, Switzerland. [19] OAICat, <http://www.oclc.org/research/software/oai/cat.htm> [20] OAIHarvester, <http://www.oclc.org/research/software/oai/harvester.htm> [21] OAI Viewer, <http://www.oclc.org/research/software/oai/errol.htm> [22] DSpace DIDL plug-in, <http://sourceforge.net/projects/didl-plug-in/> [23] DSpace, <http://www.dspace.org> [24] Fedora, <http://www.fedora.info/> [25] mod_oai project, <http://www.modoai.org> 謝辞次の方々に感謝の意を表します。:
Copyright © 2004 Herbert Van de Sompel, Michael L. Nelson, Carl Lagoze, and Simeon Warner |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
頁先頭 | 目次 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
D-Lib Magazine Access Terms and Conditions doi:10.1045/december2004-vandesompel
|