検索   |   バックナンバー   |   著者索引   |   タイトル索引   |   目次

Articles

spacer

D-Lib Magazine
2004年12月

10巻12号

ISSN 1082-9873

OAI-PMHフレームワークを使用したリソースハーベスティング

 

Herbert Van de Sompel
ロスアラモス国立研究所研究図書館
<herbertv@lanl.gov>

Michael L. Nelson
オールド・ドミニオン大学コンピュータ・サイエンス学科
<mln@cs.odu.edu>

Carl Lagoze
コーネル大学コンピュータ・情報科学 <lagoze@cs.cornell.edu>

Simeon Warner
コーネル大学コンピュータ・情報科学
<simeon@cs.cornell.edu>


(原文: Resource Harvesting within the OAI-PMH Framework, D-Lib Magazine, v. 10, no. 12 (Dec. 2004)

Red Line

spacer

摘要

情報資源の保存と発見という目的から、メタデータだけではなくデジタルリソースそのものを、どのようにしたらオープン・アーカイブ・イニシアティブ・メタデータ・ ハーベスティング・プロトコル(OAI-PMH)を使ってハーベストできるかを検討する。まず、OAI-PMHでハーベストされるメタデータを使ってデジタルリソースを識別・ 収集する既存の技術を紹介し評価する。ついで、デジタルリソースをより正確に記述することのできる複合オブジェクトフォーマットを使用した別の解決法を紹介する。 そして、複合オブジェクトフォーマットをOAI-PMHメタデータフォーマットとして使用すると、OAI-PMHを使ってリソースの差分ハーベスティングを行う信頼性の高い魅力的な アプローチになることを論ずる。

はじめに

OAI-PMH[Lagoze et al. 2002]は、メタデータをハーベストする方法として広く採用されている。このメタデータは、それ自身は OAI-PMHデータモデルの適用範囲外であるリソースに付随する。提供されるメタデータは一般に記述的な性格のものであり、ダブリンコア[注1]や MARCXML[注2]など、複雑さの異なる様々なメタデータフォーマットで表現されている。

最近になって、OAI-PMHにおけるメタデータの構成要素に対してより自由な解釈を示す利用例が現れてきた[Van de Sompel, Young and Hickey, 2003]。 たとえば、ロスアラモス国立研究所(LANL)とオールド・ドミニオン大学による共同プロジェクトでは、ハーベスト可能なデジタルリソースに付随する利用情報を作成する方法として OAI-PMHを使用している。このプロジェクトにおいて、公開される各メタデータレコードは対象となるデジタルリソースのアクセス履歴を手短に記述している。

本稿において、我々はメタデータが記述的性格のものであるという観点を保持する。ただし、記述的メタデータの範囲を、単なるダブリンコアやMARC、その他の書誌的フォーマット 以上のものに拡大する。 このことにより、デジタルリソースを記述する上で、より複雑で表現力が高く正確なメタデータフォーマットを導入することが可能となる。このようなフォーマットは既に 存在しており、一般に複合オブジェクトフォーマットと呼ばれている。たとえば、MPEG-21 DIDL[注3]やMETS[注4]、 SCORM[注5]などである。これらの複合オブジェクトフォーマットとOAI-PMHを組み合わせると、デジタルリソースのハーベスティングを実現する 信頼性の高いフレームワークとなる。

問題の所在

記述的メタデータだけでなくリソース自体を相互運用可能な方法でハーベストできるようにしたいという要求が高まっている。特に次の2つの利用例がこれを必要としている。

  • 保存: デジタルデータをデータリポジトリから、コンテンツの複製物を安全に保管・保存することを目的とする1つ以上の信頼できる デジタルリポジトリに定期的に転送したいという要求。信頼できるデジタルリポジトリはオリジナルのデータリポジトリとの同期を自動的に取るメカニズムを必要とする。
  • 発見: コンテンツそれ自体を使って新たなサービスを行いたいという要求。たとえば、複数のデータリポジトリのフルテキストを検索できるようにする 検索エンジンや、フルテキストから参考文献を抽出する引用索引システムなどである。他に、サムネール表示をするブラウジングインターフェースを持つ 外部サービスに文化財コレクションの高解像度画像のサムネール版を提供すること[Osborne 2004]などがある。

これらの利用例はすでにオランダ[注6]や英国[注7]、ドイツ[注8]における デジタルライブラリプロジェクトや機関リポジトリプロジェクトの中で議論されている。保存の利用例は、全米デジタル情報基盤保存プログラムのアーカイブ・ エクスポート/受入作業[注9]にも現れている。発見の利用例はウェブサーチエンジンの分野でも見られる。この分野では 検索技術の洗練さとコンテンツの利用範囲が競争要因となっている。そのため、サーチエンジン提供機関はデジタルライブラリや機関リポジトリに保管されている 「Webの奥深くにある」コンテンツにますます興味を持つようになっている。このことは、主要なウェブサーチエンジンがOAIster [注10]や OCLC [注11]、 arXiv [注12]、NSDL [注13]と共同研究を行っていることからも裏付けられる。 したがって、広く採用されているOAI-PMHをコンテンツ収集要求に応える手段として使用できないかを検討することは興味深いことである。

OAI-PMHリポジトリにより公開されるメタデータを通じてデジタルリソースを間接的に収集する方法は既にたくさん存在する。リポジトリで公開されているダブリンコア メタデータは、ほとんどの場合、あるネットワークロケーションで入手可能なデジタルリソースを記述している。これらのデジタルリソースおよび入手可能な場所を示す ネットワークロケーションは一般にOAI-PMHリポジトリを運営するデータプロバイダの管理下にある。このような場合にコンテンツを収集する一般的なアプローチは次の通りである。

  1. OAI-PMHハーベスタはOAI-PMHリポジトリからダブリンコアレコードをハーベストする。
  2. ハーベスタは各ダブリンコアレコードを解析して dc.identifier情報を抽出し、記述されているリソースのネットワークロケーションを 決定する。
  3. OAI-PMHが適用されない別のプロセスで、決定したネットワークロケーションから記述されていたリソースを収集する。

このアプローチには次のような2つの大きな問題点がある。

  • dc.identifierの情報に基づいてリソースの場所を決定していること。 この問題は実際には二通りの形で現れ、少なからぬ失敗の原因になることが報告されている [Lossau, 2004; Summann & Lossau, 2004]。
  • dc.identifierは一般に、また規則上、様々なリソース識別子を伝達するのに使用される[注14]。 この要素には、URL、DOI、書誌引用などを同時に格納することができる。dc.identifierは、提供される識別子のうち、もしあるとすれば、どれがリソースの ロケータであるかを明白に伝達する表現力を持っていないので、リソースの場所を特定して収集するために様々な発見的方法や逆参照の試みが行われてきた。
  • 一般にダブリンコアレコードはユーザサービスの目的で作成されているので、多くの場合、dc.identifierに記述されているネットワークロケーションは、 リソース自体の場所ではなく、いわゆるスプラッシュページと呼ばれるリソースへのリンクを提供するページの場所である。この場合、 解読したオブジェクトが実際にそのリソースであるか、その代用品であるかどうかを決定し、代用品である場合には、そこに埋め込まれた 実際のリソースへのリンクを見つけるという問題が生ずる。
  • リソースハーベスティングのトリガーとなるOAI-PMH日付スタンプ。 コンテンツを収集する際、ハーベスタはデジタルリソースがいつ追加あるいは変更されたかを明確に知る必要がある。なぜなら、データリポジトリとそのコンテンツを 使用するサービスの間で同期をとることが必須であるからである。上記のOAI-PMHによる一般的なコンテンツ収集シナリオにおいて、使用するOAI-PMH日付スタンプは、 定義によりダブリンコアメタデータレコードの作成日時あるいは変更日時であり、リソースを変更してもそのダブリンコアレコードは必ずしも変更されるわけではない。 したがって、OAI-PMH日付スタンプは日付に基づいたリソースハーベスティングの信頼できる基準にはならない。表1にダブリンコアレコードのOAI-PMH日付スタンプを、 対象となるリソースの作成あるいは変更日付として使用する際に生じる問題点を示す。
  メタデータ更新なし メタデータ更新
リソース更新
なし
問題なし リソースの
不要なダウンロード
リソース
更新
リソース更新の
見逃し
問題なし
表 1: メタデータが更新された時にしか変更されないOAI-PMH日付スタンプをコンテンツ収集の基準として使用する際の問題点

既存のアプローチ

リソースの差分ハーベスティングが必要とされたため、上記の問題を克服するための多くの技術が開発された。しかし、提案された技術はすべて、問題の 一般的な解決法としてはふさわしくない問題を抱えていた。

その一例が、NACAテクニカルレポートサーバ[Nelson, 1999]と英国のMAGiCプロジェクト[Sidwell, Needham & Harrington, 2000]の 間のミラーリング協定である。共に歴史的な航空工学レポートのコレクションであったが、スキャンしてコレクションに追加する頻度が断続的かつ不規則であったので、両サイトの間で 同期を取る必要があった。両サイトともOAI-PMHリポジトリであったので、コレクションへの新規追加を知るためにOAI-PMHインターフェースを使用することにした。メタデータ レコードのOAI-PMH日付スタンプがリソース(PDFファイル)をハーベストするためのトリガーとして使用された。リソースの性格上、メタデータの 更新なしにリソースが更新されることはほとんどないので、表1で示した更新を見逃す危険は非常に小さいと思われた。しかし、この方法では多くの問題が生じた。そのため、 担当者間の連絡が重要となり、ケースバイケースの対応が必要となった。

  • MAGiCのメタデータレコードは、dc.identifier要素にデジタルリソース(PDFファイル)そのもののURLを設定していたが、NACAのメタデータレコードは 書誌情報を表示するスプラッシュページのURLを設定していた。したがって、NACAレポートをミラーリングするにはdc.identifierに設定されたURLからリソースのURLを抽出する ための特別な仕組みを必要とした。
  • NACAレポートにはPDFだけでなく、GIFやTIFF、TIFFファイルからOCRで取り込んだテキストファイルも含まれていた。このうちTIFFファイルとテキストファイルは ウェブ上で利用可能であったが、NACAメタデータのdc.identifierに設定されたスプラッシュページにはこれらのファイルへのリンクがなかった。

こうした問題があったので、NACA/MAGiCミラーリングアプローチをアーカイビングという意味で一般化することはできない。

システム開発者はデジタルリソースのネットワークロケーションをダブリンコアメタデータレコード内で表現する様々な方法を提案してきた。従来からある発見的方法の1つは、 ダブリンコアレコードの1番目のdc.identifier要素にリソースのURLを設定する方法である[Young, 2004]。もう1つの方法(例1)は、リソースの ネットワークロケーションをdc.format要素に設定して伝達する方法である。下に示したように、リソースのMIMEタイプの後ろにURLを記述する [Freed & Borenstein, 1996]。 リソースのURLをdc.relation要素に設定して伝達する方法(例2)もある。また、例2と同様にリソースのURLをdc.relation要素に設定し、さらにdc.identifier要素で 指定する書誌的スプラッシュページのURLとは異なるスプラッシュページのURLを第2のdc.relation要素に設定する方法(例3)もある。

これら3種類の方法はすべてEPrintsシステム[注15]をインストールしたリポジトリに見られるものである。例1から例3は同じリソースを3種類の 方法で記述したものである。なお、例1はOAI-PMHリポジトリから直接採取したものであるが、例2と例3は他のリポジトリで使用されている技術をモデル的に示したものである。 OAI-PMHを実装した単一のソフトウェアにおいても一般的な方法が存在しないということは、メタデータだけでなくコンテンツも収集する必要があるアプリケーションに とっては大きな負担である。

<oai_dc:dc    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
xmlns:dc="http://purl.org/dc/elements/1.1/">
    <dc:title>A Simple Parallel-Plate Resonator Technique for Microwave.
           Characterization of Thin Resistive Films</dc:title>
    <dc:creator>Vorobiev, A.</dc:creator>
    <dc:subject>ING-INF/01 Elettronica</dc:subject>
    <dc:description>A parallel-plate resonator method is proposed for
            non-destructive characterisation of resistive films used in microwave
            integrated circuits. A slot made in one ...
        </dc:description>
    <dc:publisher>Microwave engineering Europe</dc:publisher>
    <dc:date>2002</dc:date>
    <dc:type>Documento relativo ad una Conferenza o altro Evento</dc:type>
    <dc:type>PeerReviewed</dc:type>
    <dc:identifier>http://amsacta.cib.unibo.it/archive/00000014/</dc:identifier>
    <dc:format>pdf
          http://amsacta.cib.unibo.it/archive/00000014/01/GaAs_1_Vorobiev.pdf
        </dc:format>
</oai_dc:dc>
例 1: リソースのURLはdc.formatに"pdf"に続けて設定されている。書誌的スプラッシュページのURLはdc.identifierに設定されている。
...
    <dc:identifier>http://amsacta.cib.unibo.it/archive/00000014/
        </dc:identifier>
    <dc:relation> http://amsacta.cib.unibo.it/archive/00000014/01/GaAs_1_Vorobiev.pdf
        </dc:relation>
...
例 2: リソースのURLはdc.relationに設定されている。書誌的スプラッシュページのURLはdc.identifierに設定されている。
...
    <dc:identifier>http://amsacta.cib.unibo.it/archive/00000014/
        </dc:identifier>
    <dc:relation>http://amsacta.cib.unibo.it/archive/00000014/01/GaAs_1_Vorobiev.pdf
        </dc:relation>
    <dc:relation> http://resolver.unibo.it/00000014/
        </dc:relation>
...
例 3: リソースのURLと書誌的スプラッシュページのURLが共にdc.relationに設定されている。 書誌的スプラッシュページを示す別のURLが、dc.idnetifierに設定されている。

書誌的スプラッシュページのURLをdc.identifierに設定し、リソースのURLを特別な目的のXHTMLの<link>要素に指定するという別の方法 [Tourte & Powell, 2004]も提案されている。この方法はスプラッシュページの存在を仮定しており、提案された取り決めに従うOAI-PMHリポジトリ からハーベスティングすることをハーベスタが選択できることを要請している。さらに、コンテンツ変更の指標としてはやはりメタデータレコードのOAI-PMH日付スタンプが 使われているので、リソースが更新されたことを見逃す可能性が残っている。

このように様々な方法が存在するということは、リソースハーベスティングに欠かせない情報を明確に表現するための十分かつ厳密なセマンティクスを限定子なしのダブリンコアが 持っていないことを示している。これを受けて、システム開発者は問題を解決するために、より表現力を持つ限定子付きのダブリンコアフォーマットの使用を検討し始めた。実際、 限定子付きのダブリンコアは様々な種類の識別子やロケータの違いを明確に表現する力を持っている。しかし、限定子付きダブリンコアフォーマットをどのように使用したら OAI-PMH日付スタンプの問題を解決できるのかは不明である。また、この問題はコンテンツ収集のための信頼のおける解決法の一部として解決されるべきである。 より表現力の高い複合オブジェクトフォーマットが存在し、採用され使用されつつある。目的に合わないメタデータフォーマットにむりやり合わせて解決をはかるより、 こちらの道を追い求めた方が建設的であると思われる。これが本稿の残りで提案する解決法である。

この問題をより根本的な方法で解決しようと試みているプロジェクトが少なくとも1つ存在する。OA-X[注16]は、コンテンツを収集することを唯一の目的とする 新しいリクエストverbを導入してOAI-PMHを拡張した。プロトコルの拡張は限定的な状況では成功しているが、一般化には失敗している。リソースハーベスティングのような 新しい利用例が発生した場合、既存のOAI-PMH処理システムがそのまま使用できるような方法を第一にまた十分に探ることが重要である。

OAI-PMHフレームワークを使った解決法: 複合オブジェクトフォーマットをOAI-PMHメタデータフォーマットとして使用する

上で述べた例は、OAI-PMHの拡張やOAI-PMHとは別の何らかの特別な取り決めをすることにより、リソースのハーベストが可能であることを示している。しかし、 これらの技術はどれもその一般性や限定性を妨げる問題を抱えている。これらの問題はある応用にとっては単なる不満に過ぎないかもしれないが、他の応用にとっては 受入れがたいものとなる。保存がまさにそうである。保存の目的は対象のデータリポジトリと完全に同期の取れたアーカイブを作成することである。この問題はリソース発見 サービスのためのリソースハーベスティングにとっても障害となる。このサービスはリポジトリのコンテンツが索引に正確に反映されていることに依存しているためである。

OAI-PMHの適用範囲内において厳しい要求をもつこれらの利用例に対応するために、デジタルリソースの記述においてより複雑かつ表現力が高く正確なメタデータフォーマット の使用を導入する。これらのフォーマットは特にデジタルオブジェクトを表現する目的で定義されている[Kahn & Wilensky, 1995]。

複合オブジェクトフォーマット

デジタルオブジェクトを表現する表現力の高いフォーマットがいくつかのコミュニティから提案されており、一般に複合オブジェクトフォーマットと呼ばれている。 複合オブジェクトの歴史についてはネルソンら[Nelson, et al., 2001]により調査されている。最近の例としては、MPEG-21 DIDL [注3]、 METS [注4]、SCORM [注5]などが挙げられる。複合オブジェクトフォーマットは一般に次のような特徴を持っている。

  • XML文書でデジタルオブジェクトを表現する。
  • 単体のデジタルオブジェクト(1つのデータストリームから成る)も集合デジタルオブジェクト(複数のデータストリームから成る)も共に 表現することができる。
  • デジタルオブジェクトの識別子とオブジェクトを構成するデータストリームを曖昧なく伝達することができる。
  • データストリームを互いに排他的でない次の二つの方法で含めることができる。
  • 値埋め込みによる方法: base64エンコーディング[Freed & Borenstein, 1996]したデータストリームをXML文書に 埋め込む。
  • 参照による方法: データストリームのネットワークロケーションをXML文書に明白な形で埋め込む。この方法は値埋め込みによる方法と完全に同等であると 考えられる。
  • データストリームに付随する様々な二次情報を含めることができる。たとえば、書誌的メタデータや権利情報、技術メタデータなどである。この二次情報も 値埋め込み/参照の両方法で提供することが可能である。

OAI-PMHのデータモデルと複合オブジェクトフォーマット

図1はOAI-PMHデータモデルの定義でいうリソースがデジタルコンテンツである場合のOAI-PMHデータモデルを図示したものである。この図では本稿で述べる 記述的メタデータに関する拡張した概念を導入しており、次のように解釈されるべきである(以下、OAI-PMHの概念はイタリック体で示す)。

  • 最上位はデジタルリソース(たとえば、PDFファイル)であり、これについてのメタデータをOAI-PMHリポジトリは公開する。 デジタルリソースは集合である、すなわち複数のデータストリームから成る、ことも可能であることに注意が必要である。先に指摘したように、リソース 自体はOAI-PMHの適用範囲外である。
  • リソースの下に位置づけられるのはアイテムである。アイテムはOAI-PMHの適用範囲における最上位の実体である。 かいつまんで言えば、アイテムとは、リソースに付随する利用可能なすべてのメタデータへの入口点である。プロトコル上、 アイテムはOAI-PMH identifierにより一意に識別される。
  • アイテムの下には、いくつかのレコードが示されている。レコードメタデータ(およびメタデータに関する二次情報)を含んでいる。 OAI-PMHにおいてレコードは、(アイテムの)OAI-PMH identifierメタデータの発信に使用されるメタデータフォーマットを指定する metadataPrefix、および、メタデータのOAI-PMH datestampの組み合わせで曖昧なく識別される。datestampメタデータが作成あるいは 変更された日時である。datestampメタデータの属性であり、以前の版のプロトコルで使用されていたようなアイテムの属性では ない[Lagoze et al, 2002]ことに注意が必要である。これは、様々なメタデータフォーマットのメタデータは それぞれ独立に作成/公開/修正される可能性があり、そのため異なるdatestampを持ちうるという事実を反映している。

Chart of the OAI-PMH data model

図 1: OAI-PMHデータモデル

図1ではOAI-PMHデータモデルに複合オブジェクトフォーマットを導入している。図では、複雑さと正確さの度合いをつけて記述的メタデータを表示している。 ダブリンコアメタデータは、リソース発見を目的とする最低限のダブリンコアメタデータフォーマットによりリソースを記述する。MARCXMLメタデータは、 目録作成を目的としたより複雑で表現力の高いMARCメタデータフォーマットによりリソースを記述する。MPEG-21 DIDL XML文書およびMETS XML文書は デジタルオブジェクトを正確に記述することに焦点をあわせたさらに複雑なフォーマットによりリソースを記述する。このフォーマットは、 記述/権利/技術/構造/出所メタデータなどリソースに付随するさまざまな二次情報を表現することができる。また、識別子を曖昧なく伝達することや、 リソース自体を参照や値埋め込みにより含めることも可能である。このフォーマットはあらゆる種類のデジタルオブジェクトを表現するために使用することが できる。すなわち、含まれるデータストリームの種類や数に関わらずデジタルオブジェクトを表現することが可能である。様々な種類のリソースを記述する 能力がメタデータフォーマットの中心的特性であることに注目することが重要である。それこそが、メタデータフォーマットとファイルフォーマットを区別する 特性だからである。この意味で、複合オブジェクトフォーマットをメタデータフォーマットとみなすことは合理的である。この見解は、METSという名称自体が 支持している。METSとはMetadata Encoding and Transmission Standard(メタデータ符号化伝送標準)の略だからである。

例4は、MPEG-21デジタルアイテム記述言語(DIDL: Digital Item Description Language)でリソースを表現したものである。リソースは例の1から3において ダブリンコアメタデータで記述したものと同じである。リソースをDIDLで記述した場合の基本的特徴は次の通りである。

  • リソースは、DIDLデータモデルのdidl:Itemエンティティにマッピングされる。
  • didl:Item はリソースに関する二次情報を伝達する次の2つのdidl:Descriptorを持つ。
  • 1つ目のdidl:Descriptorは、MPEG-21 デジタルアイテム識別標準(Digital Item Identification Standard [注17])に 基づいて記述し、リソースの識別子(http://amsacta.cib.unibo.it/archive/00000014/)を曖昧なく伝達する。
  • 2つ目のdidl:Descriptorは、例3とほぼ同じ形式でリソースに付随するダブリンコアメタデータを伝達する。唯一の相違は、dc.relationフィールドを使った リソースのネットワークロケーションの曖昧な指定を削除している点である
  • リソースのネットワークロケーション(http://amsacta.cib.unibo.it/archive/00000014/01/GaAs_1_Vorobiev.pdf)は、didl:Resource要素のref属性の値として 曖昧なく提供される。さらに、同じ要素のmimeType属性で、対象となるリソースのmimeタイプを標準的な方法で指定している。
<didl:DIDL  xmlns:didl="urn:mpeg:mpeg21:2002:02-DIDL-NS"
                  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                  xsi:schemaLocation="urn:mpeg:mpeg21:2002:02-DIDL-NS
                  http://purl.lanl.gov/STB-RL/schemas/2004-11/DIDL.xsd">
<didl:Item>
      <didl:Descriptor>
            <didl:Statement mimeType="text/xml; charset=UTF-8">
                  <dii:Identifier
                            xmlns:dii="urn:mpeg:mpeg21:2002:01-DII-NS"
                            xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                            xsi:schemaLocation="urn:mpeg:mpeg21:2002:01-DII-NS
                            http://purl.lanl.gov/STB-RL/schemas/2003-09/DII.xsd">
                      http://amsacta.cib.unibo.it/archive/00000014/
                  </dii:Identifier>
            </didl:Statement>
      </didl:Descriptor>
      <didl:Descriptor>
            <didl:Statement mimeType="text/xml; charset=UTF-8">
                <oai_dc:dc xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                     xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
                      http://www.openarchives.org/OAI/2.0/oai_dc.xsd"
                      xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
                      xmlns:dc="http://purl.org/dc/elements/1.1/">
                  <dc:title>A Simple Parallel-Plate Resonator Technique for Microwave.
                      Characterization of Thin Resistive Films
                  </dc:title>
                  <dc:creator>Vorobiev, A.</dc:creator>
                  <dc:subject>ING-INF/01 Elettronica</dc:subject>
                  <dc:description>A parallel-plate resonator method is proposed for
                     non-destructive characterisation of resistive films used in microwave
                      integrated circuits. A slot made in one ...
                  </dc:description>
                  <dc:publisher>Microwave engineering Europe</dc:publisher>
                  <dc:date>2002</dc:date>
                  <dc:type>Documento relativo ad una Conferenza o altro Evento</dc:type>
                  <dc:type>PeerReviewed</dc:type>
                  <dc:identifier>
                      http://amsacta.cib.unibo.it/archive/00000014/
                  </dc:identifier>
                  <dc:format>application/pdf</dc:format>
                 </oai_dc:dc>
            </didl:Statement>
      </didl:Descriptor>
      <didl:Component>
            <didl:Resource mimeType="application/pdf" ref="http://amsacta.cib.unibo.it/archive/
               00000014/01/GaAs_1_Vorobiev.pdf"/>
      </didl:Component>
</didl:Item>
</didl:DIDL>
例 4: MPEG-21デジタルアイテム記述言語で記述した例1-3のリソース

例4は、MPEG-21 DIDLを使って得られる多くの表現のうちの1つを示したものにすぎない。MPGE-21 DIDLをはじめとする複合オブジェクトフォーマットはきわめて用途が広いので、 同じリソースから様々な表現を作り出すことができる。しかし、上で述べた共通の特徴により、これまでに示した複合オブジェクトフォーマットはすべて、 以下をサポートする。

  • ダブリンコア以外の記述的メタデータフォーマット。
  • 複数のデータストリームから成るリソース。リソースは1つの記述で表現されるが、各データストリームは曖昧さのない各自のネットワーク ロケーションを持つことができる。複数のデータストリームは各自の識別子、共通の識別子、あるいは、その両者を持つことができる。記述的メタデータなど データストリームに関する二次情報についても同様である。
  • base64エンコーディングによるリソース(あるいはデータストリーム)の値埋め込み。この技術は大きなデータストリームを考えると技術的課題を残しているが、 普通のサイズのデータストリームであれば、明らかに魅力的な技術である。たとえば、画像のサムネールを値埋め込みで提供することが可能なことは明らかである。

OAI-PMHに複合オブジェクトフォーマットを使用する

複合オブジェクトフォーマットとOAI-PMHの組み合わせは、これまで議論されてきたコンテンツ収集にまつわる問題に取り組むための魅力的な選択肢である。 表2に、複合オブジェクトメタデータフォーマットがいかにOAI-PMHデータモデルに適合するかを示した。このアプローチの魅力的な特徴は次の通りである。

  • 複合オブジェクトフォーマットはリソースをXML文書で表現する。したがって、リソースの表現をそのまま、OAI-PMHレスポンスの メタデータ(<metadata>要素)として伝達することができる。
  • 複合オブジェクトフォーマットはリソース(およびその構成要素であるデータストリーム)のネットワークロケーションを曖昧なく特定する 表現を提供する。これによりハーベストするべきリソースの場所を捜さなければならないという問題が解決される。
  • 複合オブジェクトフォーマットをOAI-PMHフレームワークにおけるメタデータフォーマットの1つとして使用すると、リソースをハーベストする ための明白なトリガーを提供することになる。定義により、OAI-PMH日付スタンプはメタデータの作成あるいは変更日付である。複合オブジェクトフォーマットを 使用する場合、メタデータは、複数のデータストリームやそれを記述するメタデータなどリソースを構成するすべての要素を含むリソースの表現となる。その結果、 これらの構成要素の1つに変更が生じると、付随するOAI-PMH日付スタンプは直ちに更新される。この変更が必ずしもすべてXML文書の変更にはならないことに注意 するべきである。実際、参照により提供されているビットストリームに変更が生じたとしても、そのネットワークロケーションは変更されないのでXML文書も変更 されることはない。しかし、ビットストリームの値埋め込みによる提供と参照による提供は、複合オブジェクトフォーマットにおいては同等であるので、値埋め込みに よる提供でOAI-PMH日付スタンプが変更されるような場合は、参照による提供でも日付スタンプは必ず変更されることになる。 したがって、リソースが新規に追加されたことや既存のリソースに変更があったことは、リソースの複合オブジェクト表現のOAI-PMH日付スタンプを使って 知ることができる。
  • 複合オブジェクトフォーマットは、リソースが単体(単一のデータストリーム)であっても、集合(複数のデータストリームから成る)で あっても、リソースハーベスティングの統一的な解決法を提供する。
  • 複合オブジェクトフォーマットは、リソース(あるいはデータストリーム)の識別子とロケータの違いを明確にすることができ、さらに、 リソースの識別子やロケータとメタデータの識別子やロケータとの違いを明確にすることさえ可能である。
  • 複合オブジェクトフォーマットをOAI-PMHフレームワーク内で使用すると、セットメンバーシップのような属性や(メタデータに付随する二次情報を伝達するための) 「about」コンテナの使用など、他のメタデータレコードと同じセマンティクスを、複合オブジェクト表現であるメタデータレコードにも一貫して適用することができる。
OAI-PMHエンティティ 説明
リソース URL PDF、PS、XML、HTML、あるいは、その他のファイル
アイテム
identifier oai-identifier oai-identifierスキームによる識別子 [Lagoze et al., 2002]
セットメンバーシップ LCSH LC件名標目
レコード 1
metadataPrefix oai_dc ダブリンコアフォーマットによる書誌的メタデータ
datestamp 2004-07-22 ダブリンコアレコードの変更日
レコード 2
metadataPrefix marc21 MARCフォーマットによる書誌的メタデータ
datestamp 2004-07-31 MARCレコードの変更日
レコード 3
metadataPrefix didl MPEG-21 DIDLを使ったリソースの表現
datestamp 2004-08-02 リソースの構成要素のうち最後に変更された要素の変更日
表 2: OAI-PMHデータモデルから見た3つのメタデータフォーマット(ダブリンコア、MARCXML、MPEG-21 DID)をサポートするOAI-PMHリポジトリ

OAI-PMHフレームワーク内において複合オブジェクトフォーマットを使ってリソースハーベスティングを行う一般的なシナリオは以下のとおりである。

  1. OAI-PMHハーベスタは、ListMetadataFormatsリクエストを使って自身が理解可能な複合オブジェクトフォーマットをリポジトリが サポートしているか調べる。
  2. サポートしていることがわかったら、ハーベスタはリポジトリからその複合オブジェクトメタデータをハーベストする。このフォーマットの レコードにおけるOAI-PMH日付スタンプのセマンティクスにより、リソースの追加・変更が検知されることは保証されている。
  3. ハーベスティングアプリケーションの最後でパーサはハーベストした複合オブジェクトレコードを解析する。
  • パーサは値埋め込みにより配信されたビットストリームを抽出する。
  • パーサは参照により配信されたビットストリームのネットワークロケーションに対する曖昧さのない参照を抽出する。
  1. OAI-PMHが適用されない別のプロセスで、抽出したネットワークロケーションから参照により配信されたビットストリームを収集する。

OAI-PMHと複合オブジェクトフォーマット: 既存の実装例

様々なプロジェクトで既にOAI-PMHと複合オブジェクトフォーマットを組み合わせて使用する方法が研究されている。この節ではいくつかの事例を紹介する。

ロスアラモス国立研究所リポジトリ

ロスアラモス国立研究所(LANL)研究図書館では、デジタルオブジェクトをMPEG-21 DIDLを使って表現し、デジタルライブラリ・リポジトリの保存用情報パッケージ(AIP) として使用している[注18]。OAI-PMHはリポジトリアクセスプロトコルとして使用されている。ダウンロード専用アプリケーションがListRecords リクエストを使って、日付スタンプとセットに基づいて、コンテンツを差分ハーベストしている。単体のAIPの配信要求にはGetRecordリクエストを使用している。この 方法は2004年6月から実用ベースで使用されている。この方法を取るに至った研究については報告がある[ Bekaert, Hochstenbach & Van de Sompel, 2003Bekaert et al., 2004Jerez, et al. 2004]。 本稿執筆時点で、LANLリポジトリは1500万件のAIPを持っており、今後12ヶ月でその数は3倍になると予想している。リポジトリのインフラとしてはOCLCのOAICat [注19]やOAIHarvester[注20]、OAI View[注21]など出来合いのOAI-PMHツールを使用している。 例5にLANLリポジトリにおけるMPEG-21 DIDLとOAI-PMHの使用例を示す。

リソース(BIOSISレコード)のDIDL表現を含んでいるLANLリポジトリからのOAI-PMH GetRecordレスポンス: LANL_GetRecord.xml
動画 1: LANLリポジトリを構成するOAI-PMHリポジトリとのやり取り:
  • Windows用Camtasia Pack & Show実行形式; 音声なし; サイズ = 4.9 Mb: LANL_OAIPMH.exe
  • QuickTimeムービー; 音声なし; サイズ = 15 Mb: LANL_OAIPMH.mov
例 5: LANLリポジトリにおける複合オブジェクトフォーマットの使用例

ロスアラモス国立研究所における米国物理学会コレクションのミラーリング

ロスアラモス国立研究所(LANL)研究図書館では、OAI-PMHを使って米国物理学会(APS)のコレクションを正確かつタイムリーにミラーリングすることを目的とするもう1つ別の プロジェクトを行っている。このプロジェクトにおけるミラーリングとは、LANLにおけるAPSコレクションの複製を意味しており、APSのアプリケーションやAPSで使用されている 低レベルのストレージ法やリポジトリシステムの複製を意味しているのではない。APSが作成するデジタルオブジェクトは一般に複数のデータストリーム、すなわち、表現力の高い 記述メタデータ、様々なフォーマットの研究論文、および、データセットやビデオ録画などの補助資料などから成る。プロジェクトでは、このようなオブジェクトを複合 オブジェクトして、アクセス制限を設けた既存のAPS OAI-PMHインターフェースを使って公開している。ここでも複合オブジェクトフォーマットとしてはMPEG-21 DIDLを使用しており、 APSはデジタルオブジェクトをDIDL XML文書として表現できるようOAI-PMHインターフェースにモジュールを組み込んでいる。LANLは定期的にOAI-PMHハーベスティングを行うことで APSから更新あるいは追加されたコンテンツを収集している。ここで、コンテンツの正確な複製は公開される複合オブジェクトのOAI-PMH日付スタンプのセマンティクスにより 保証されている。一般的なメタデータハーベスティングの場合と同様に、690GBに及ぶAPSリポジトリのすべてをOAI-PMHを使ってハーベストできるとは考えなかった。そこで、 ある日付分までのAPSアーカイブは物理的メディアを使って搬送し、その後は、APSリポジトリで行われた更新をOAI-PMHを使ってハーベストすることにした。 本稿執筆時点において、継続中の実験結果からこの方法で首尾よく実運用に移行できることが示されている。例6にAPS/LANLミラーリングプロジェクトにおけるMPEG-21 DIDLと OAI-PMHの使用例を示す。

リソース(APS出版物)のDIDL表現を含むAPSリポジトリからのOAI-PMH GetRecordレスポンス: APS_GetRecord.xml
動画 2: APSのOAI-PMHリポジトリとのやり取り:
  • Windows用Camtasia Pack & Show実行形式; 音声なし; サイズ = 4.3 Mb: APS_OAIPMH.exe
  • QuickTimeムービー; 音声なし; サイズ = 16 Mb: APS_OAIPMH.mov
例 6: APS/LANLミラーリングプロジェクトにおける
複合オブジェクトフォーマットの使用例

DSpaceおよびFedoraのプラグイン

OAI-PMHフレームワーク内でコンテンツをハーベストする可能性をより広く示すために、LANL研究図書館はDSpace v.1.2システムのための実験的なプラグイン [注22]を作成した。このプラグインにより、DSpace[注23]の既存のOAI-PMHインターフェースを使って、 アイテムをMPEG-21 DIDL XML文書として公開することが可能となる。このプラグインをインストールすることにより、DSpaceリポジトリのコンテンツの ミラーリングや、メタデータだけでなくDSapceのコンテンツを使ったサービスの構築などを容易に実験することができる。プラグインは値埋め込みに より配信するビットストリームの最大サイズを指定することができるので、運用環境に合わせてハーベスティング負荷を調整することが可能である。 最大サイズを0にするとすべてのビットストリームは参照により配信されるので、ハーベストする側のスケーラビリティ問題を避けることができる。 Fedoraリポジトリ向けに同様な実験的プラグインを作成するプロジェクト[注24]も立ち上がっている。例7にDSpace DIDLプラグインを インストールしたDSpaceリポジトリにおけるMPEG-21 DIDLとOAI-PMHの使用例を示す。

リソース(DSpaceアイテム)のDIDL表現を含むDSpaceリポジトリからのOAI-PMH GetRecordレスポンス: DSpace_GetRecord.xml
動画 3: DIDLプラグインをインストールしたDSpaceリポジトリのOAI-PMHインターフェースとのやり取り:
  • Windows用Camtasia Pack & Show実行形式; 音声なし; サイズ = 3.3 Mb: DSpace_OAIPMH.exe
  • QuickTimeムービー; 音声なし; サイズ = 14.6 Mb: DSpace_OAIPMH.mov
例 7: DSpaceリポジトリのOAI-PMHインターフェースにおける
複合オブジェクトフォーマットの使用例

mod_oai

mod_oaiはメロン財団の助成を受けたオールド・ドミニオン大学とLANL研究図書館の共同プロジェクトであり、OAI-PMHセマンティクスをWebクローリング技術に導入する ことを目的としている[注25]。Webサーバに代わって自動的にOAI-PMHリクエストに応えるApacheモジュール(mod_oai)を開発している。 Apacheとmod_oaiを次のサイトにインストールしたとすると

http://www.foo.edu/

OAI-PMHリポジトリのベースURLは次のようになる。

http://www.foo.edu/mod_oai

httpアクセスコントロールの設定にもよるが、mod_oaiはOAI-PMHレスポンスとして3種類のメタデータフォーマットを提供する。まず、ダブリンコアが 提供されるが、その内容はファイルサイズやMIMEタイプといった技術メタデータのみである。http_headerという新しいメタデータフォーマットが導入され、 通常のWebクローラがリソースを収集する場合に返されるすべてのhttpレスポンスヘッダーを含んでいる。 3番目のメタデータフォーマットはoai_didlであり、これはWebリソースをMPEG-21 DIDLフォーマットで表現したものである。この表現にはhttp_headerフォーマットに 含まれるメタデータに加えて、Webリソース自体が、参照、値埋め込み、あるいはその両者の形で含まれている。

mod_oaiの一般的な使用法には次の2種類が存在する。1つは、通常のWebクローラが追加すべき新規URLを識別する方法としてListIdentifiersのみを発行することであり、 今1つは、ListRecordsを使って、oai_didlフォーマットでリソースを取り込むことである。例8にmod_oaiモジュールをインストールしたApache Webサーバにおける MPEG-21 DIDLとOAI-PMHの使用例を示す。

リソース(Webサーバでアクセス可能なドキュメント)のDIDL表現を含むApache WebサーバからのOAI-PMH GetRecordレスポンス:: modoai_GetRecord.xml
動画 4: mod_oaiをインストールしたApache Webサーバとのやり取り:
  • Windows用Camtasia Pack & Show実行形式; 音声なし; サイズ = 7.5 Mb: modoai.exe
  • QuickTimeムービー; 音声なし; サイズ = = 26.3 Mb: modoai.mov
例 8: Apache WebサーバのOAI-PMHインターフェースにおける
複合オブジェクトフォーマットの使用例

リソース発見および保存の両面でmod_oaiの利用は注目されると思われる。発見の面では、mod_oaiは日付スタンプとセット(MIMEタイプ)を使った差分ハーベスティングの セマンティクスを提供する。保存の面では、mod_oaiはWebサイト全体をAIPに変換し、将来の再構築のために保管することを可能とする。 さらに、http_headerメタデータは、それ自身あるいはoai_didlメタデータフォーマットに含まれているもののどちらも、リソースについての完全なhttpヘッダ情報を提供する。 この情報は標準的なOAI-PMHの利用方法では得られない情報である。大規模なWebクローリング実験で報告されている「Last-Modified」ヘッダや「Etag」ヘッダの異常を 考えると、mod_oaiレスポンスは標準的なWebクロール技術より正確にコンテンツを収集する機能を提供する可能性がある。

考察

複合オブジェクトフォーマットをメタデータフォーマットとしてOAI-PMHフレームワークに導入することによりリソースハーベスティング問題に一般的で確実な解決法を 得ることができる。セットや「about」コンテナといった既存のOAI-PMH概念もすべて利用可能である。OAI-PMH日付スタンプの概念を複合オブジェクトに適用すると新規 および更新されたリソースをハーベストするための信頼できる手法を得ることができる。この解決法は完全にOAI-PMH我ームワークの範囲内であるので、広く使用されている 既存のOAI-PMHツールを使って実装することができる。つまり、単に新しいメタデータフォーマットを決めて実装するだけである。

この解決法はアーカイブのエクスポート/受入に関する魅力的なパラダイムを提出する。なぜなら、コンテンツをアーカイブ間で移動させるという概念がアプリケーションとは 独立のプロトコルに基づいた方法で処理され、また、一般にミラーリング解決法よりも抽象的なレベルで処理されているからである。実際、多くの場合、ミラーリングアプローチは ファイルやファイルシステム、ディスクシステムといった低レベルのセマンティクスやアプリケーションを完全にミラーすることに焦点を置いている。本稿で提案するアプローチは これとは異なり、図2に示すようにコンテンツ移動に関してOAIS参照モデルにきれいに当てはめることができる。この図は、アーカイブ2アーカイブ1をミラーリング するシナリオである。一般に、アーカイブ1アーカイブ2は異なる環境で運営され、技術的な構成も異なる。このような技術的多様性は単に現実的であるというより、 保存という観点からは要件となるべきものであろう。スケーラビリティの観点からは、コンテンツの複製物を安全に保管するためにアーカイブ1の技術的環境を アーカイブ2にも実装するということは現実的ではない。むしろ、アーカイブ2は、アーカイブ1のコンテンツを自身のコンテンツやアーカイブ1以外の アーカイブからのコンテンツと同様に扱った方が合理的であろう。

本稿で提案するパラダイムでは、アーカイブ1はOAI-PMHインターフェースを通じて配布用情報パッケージ(DIP)を公開する。このDIPは、アーカイブ内部の保存用情報 パッケージ(AIP: 図2のAIP1)を複合オブジェクト表現にマッピングしたものである。この複合オブジェクト表現は、アーカイブ1およびアーカイブ2のどちらの 技術的・構成的環境の特徴も反映していないという意味でアプリケーション独立である。OAI-PMHにより移動する際、このアーカイブ1のDIPはアーカイブ2に対する 提出用情報パッケージ(SIP)となる。移動が済むと、アーカイブ2はこのSIPを処理して受け入れる。すると、このSIPはアーカイブ2に保管されている他のすべての AIPと同じAIPとなる(図2のAIP2)。従って、各アーカイブがリソースをAIPとして内部的にどのように表現しているかは重要でない。重要なことは、アーカイブ間で移動される ものがアプリケーション独立の複合オブジェクト表現であるということだけである。

Chart showing the process of content transfer betweena archives

図 2: OAIS参照モデルから見たOAI-PMHによるアーカイブ間のコンテンツ移動

複合オブジェクトフォーマットは複数存在し、各フォーマットを使ってリソースを表現する方法もたくさん存在するので、OAI-PMHフレームワークによる解決法を 使ってコンテンツを移動する真に相互運用可能なアプローチを実行するには、利用可能な自由度を制限する仕様が必要になるだろう。

複合オブジェクトで表現したコンテンツを移動させる場合に注意しなければならないもう1つの問題はサイズが非常に大きいレコードの移動である。データストリームを参照ではなく 値埋め込みで配信する場合に特に問題が生じる可能性が高い。サイズの大きいレコードはリポジトリを公開している実装システムに問題を引き起こすことがある。なぜなら一般に システムはレコードを転送する前にレコードの全体あるいは一部をメモリ上に展開する必要があるからである。またサイズの大きいレコードはハーベスタがレコードをメモリ上に 読み込み、解析する際にも問題を引き起こす可能性がある。これまでに紹介したほとんどのプロジェクトではOAI-PMHリポジトリが値埋め込みで配信するデータストリームのサイズに 制限を設け、この制限値を越えるサイズのファイルは参照により配信する機能を設けている。そうすることで、リポジトリはサイズに関わるシステム内部の問題を管理することが 可能となる。しかし、このような方法は必ずしもハーベスタの助けとはならない。なぜならハーベスタの制限値がハーベストされるリポジトリの制限値より厳しい場合が あるためである。したがって、この問題はさらなる研究が必要である。この問題の解決法としては、ビットストリームをすべて参照により配信することや、 OAI-PMHにはない何らかのネゴシエーション機能を導入することなどが考えられる。

注意を要するもう1つの問題として、リソースに適用する権利の表現が上げられる。実際、一般的な記述的メタデータではなくリソースを移動させる場合は、権利に関する問題は さらに重要となる。現在、権利表示をOAI-PMHフレームワーク内で伝達することを目的とした活動が行われている。この種の活動の最初の成果がメタデータに付随する権利表示を いかに伝達するかを規定した実装ガイドラインである[Lagoze et al., 2004]。リソースの複合オブジェクト表現であるメタデータにこの規定が 適応できるかどうかは興味深い。そのようなメタデータに付随する権利はリソースに付随する権利と同じであるだろうか。もし同じであれば、リソースに付随する権利表示の 伝達という問題に取り組むためにメタデータの権利表示に関する既存の規定を使うことができるかもしれない。もし同じでなければ、リソースに付随する権利を表すために 別の規定を策定して使用する必要があるだろう。

結論

OAI-PMHによるリソースハーベスティングに対する既存のアプローチには多くの問題がある。本稿では策定済のOAI-PMHフレームワークの範囲内に収まる別の解決法を提示した。 この解決法ではデジタルリソースを記述するために、より記述力の高いメタデータフォーマットである複合オブジェクトフォーマットを導入している。 複合オブジェクトフォーマットはリソースの識別子とリソースのロケーションを明確に区別することができる。すなわち、ダブリンコアのこの点における表現力の欠如を 改善する。さらに、複合オブジェクト表現に対するOAI-PMH日付スタンプの概念を正しく解釈することにより、表現されたリソースの構成要素が変更されるたびに変更される 日付スタンプを得ることができる。その結果、リソースの差分ハーベスティングを行うための信頼できるトリガーを得ることになる。

本稿ではまた、OAI-PMHと複合オブジェクトフォーマットを使ってリソースハーベスティングを行うための真に相互運用可能なフレームワークを実現するために考えなければ ならない問題を明らかにした。複合オブジェクトフォーマットを選択し実装する際に利用できる自由度の削減、サイズの大きいリソースをハーベストするためのシナリオの考察、 ハーベスト可能なリソースに付随する権利の伝達などである。もちろん、提案したアプローチを多くの人が実行すればさらに多くの問題が現れるだろう。

我々は、本稿で述べた技術がハードルの低い、幅広く利用可能なリソースハーベスティングの解決法を求める声に応えるものであると確信している。これまでの我々の経験から この解決法が実現可能であることが示されている。また。この解決法はOAI-PMHの仕様に合致しているので、既存のOAI-PMHシステムに適用することは容易であろう。 考察で述べたように、完全に適用するには多くの問題が残っているが、2005年のうちに完全な仕様を作成する活動の中でこれらの問題を解決したいと 考えている。それには、これまでの活動同様、OAIコミュニティからの技術的助言を必要とする。

参考文献

Bekaert, Jeroen, Patrick Hochstenbach, and Herbert Van de Sompel. 2003. "Using MPEG-21 DIDL to Represent Complex Digital Objects in the Los Alamos National Laboratory Digital Library," D-Lib Magazine, Volume 9, Number 11, November 2003. <doi:10.1045/november2003-bekaert>.

Bekaert, Jeroen, Patrick Hochstenbach, Lyudmila Balakireva and Herbert Van de Sompel. 2004. "Using MPEG-21 and NISO OpenURL for the Dynamic Dissemination of Complex Digital Objects in the Los Alamos National Laboratory Digital Library,". D-Lib Magazine, Volume 10, Number 2, February 2004. < doi:10.1045/february2004-bekaert>.

Clausen, Lars. 2004. "Concerning Etags and Datestamps," Fourth International Web Archiving Workshop, ECDL 2004, Bath UK. < http://www.netarchive.dk/website/publications/Etags-2004.pdf>.

Freed, N. and N. Borenstein. 1996. "RFC 2045: Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies," November 1996. <http://www.ietf.org/rfc/rfc2045.txt?number=2045>.

Jerez, Henry, Xiaoming Liu, Patrick Hochstenbach, and Herbert Van de Sompel. 2004. "The multi-faceted use of the OAI-PMH in the LANL Repository," Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries, June 7-11 2004, Tuscon, AZ, USA. pp 11-20. < doi:10.1145/996350.996355>.

Kahn, Robert and Robert Wilensky. 1995. "A Framework for Distributed Digital Object Services. Corporation for National Research Initiatives," <http://www.cnri.reston.va.us/k-w.html>.

Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2002. "The Open Archives Initiative Protocol for Metadata Harvesting, Version 2.0". June 2002. < http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm>.

Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2004. "OAI-PMH Implementation Guidelines: Conveying rights expressions about metadata in the OAI-PMH framework". < http://www.openarchives.org/OAI/2.0/guidelines-rights.htm>.

Lagoze, Carl, Herbert Van de Sompel, Michael Nelson, and Simeon Warner. 2002. "OAI-PMH Implementation Guidelines: Specification and XML Schema for the OAI Identifier Format". < http://www.openarchives.org/OAI/2.0/guidelines-oai-identifier.htm>.

Lossau, Norbert. 2004. "Search Engine Technology and Digital Libraries: Libraries Need to Discover the Academic Internet," D-Lib Magazine, Volume 10, Number 6, June 2004. <doi:10.1045/june2004-lossau>.

Maly, Kurt, Michael Nelson, and Mohammad Zubair. 1999. "Smart objects, dumb archives: a user-centric, layered digital library framework." D-Lib Magazine, Volume 5, Issue 3, March 1999. <doi:10.1045/march99-maly>.

Nelson, Michael. 1999. "A digital library for the National Advisory Committee for Aeronautics,"NASA/TM-1999-209127. <http://techreports.larc.nasa.gov/ltrs/PDF/1999/tm/NASA-99-tm209127.pdf>.

Nelson, Michael, Brad Argue, Miles Efron, Sheila Denn, and Maria Christina Pattuelli. 2001. "A Survey of Complex Object Technologies for Digital Libraries," NASA/TM-2001-211426. <http://techreports.larc.nasa.gov/ltrs/PDF/2001/tm/NASA-2001-tm211426.pdf>.

Osborne, Shaun. 2004. "Museums and Images JISC-FAIR Cluster Group - Images and Harvesting Issues Paper". <http://www.fitzmuseum.cam.ac.uk/htf/docs/M&I_IP_Images_jul04.doc>.

Summann, Friedrich and Norbert Lossau. 2004. "Search Engine Technology and Digital Libraries: Moving from Theory to Practice," D-Lib Magazine, Volume 10, Number 9, September 2004. <doi:10.1045/september2004-lossau>.

Sidwell, C. A., P.A.D. Needham, and J.D. Harrington. 2000. "Lightening grey literature: Making the invisible visible," New Review of Information Networking, Volume 6, pp 121-136.

Tourte, Greg, and Andy Powell. 2004. "Encoding full-text links in the eprint jump-off page. Draft Version 1.0," <http://www.rdn.ac.uk/projects/eprints-uk/docs/encoding-fulltext-links/>.

Van de Sompel, Herbert and Carl Lagoze. 2002. "Notes from the Interoperability Front: A Progress Report on the Open Archives Initiative," Lecture Notes In Computer Science. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Libraries. pp 144-157.

Van de Sompel, Herbert, Jeff Young and Thom Hickey. 2003. "Using the OAI-PMH ... Differently," D-Lib Magazine, Volume 9, Number 7/82, July/August 2003. <doi:10.1045/july2003-young>.

Young, Jeff. Extensible Repository Resource Locators (ERRoLs) for OAI Identifiers. <http://www.oclc.org/research/projects/oairesolver/default.htm>.

[1] DC, <http://dublincore.org/documents/dces/>

[2] MARCXML, <http://www.loc.gov/standards/marcxml/>

[3] MPEG-21, Information Technology, Multimedia Framework, "Part 2: Digital Item Declaration," ISO/IEC 21000-2:2003, March 2003.

[4] METS, <http://www.loc.gov/standards/mets/>

[5] Advanced Distributed Learning, "The Sharable Content Object Reference Model (SCORM) - Version 1.3 - WD," March 2003

[6] DARE, <http://www.surf.nl/en/themas/index2.php?oid=7>

[7] JISC FAIR, <http://www.jisc.ac.uk/index.cfm?name=programme_fair>

[8] DINI, <http://www.dini.de/>

[9] National Digital Information Infrastructure and Preservation Program, <http://www.digitalpreservation.gov/>

[10] OAIster, <http://oaister.umdl.umich.edu/o/oaister/>

[11] OCLC, <http://www.oclc.org>

[12] arXiv, <http://arXiv.org>

[13] NSDL, <http://www.nsdl.org>

[14] DC, Resource Identifier <http://dublincore.org/documents/dcmi-terms>

[15] eprints.org, <http://www.eprints.org>

[16] OA-X, <http://www.i-tor.org/oa_x/retrieving_objects/>

[17] MPEG-21, Information Technology, Multimedia Framework , "Part 3: Digital Item Identification," ISO/IEC 21000-3:2003, March 2003.

[18] International Organization for Standardization. "ISO 14721:2003. Space data and information transfer systems -- Open archival information system (OAIS) -- Reference model (1st ed.)". 2003. Geneva, Switzerland.

[19] OAICat, <http://www.oclc.org/research/software/oai/cat.htm>

[20] OAIHarvester, <http://www.oclc.org/research/software/oai/harvester.htm>

[21] OAI Viewer, <http://www.oclc.org/research/software/oai/errol.htm>

[22] DSpace DIDL plug-in, <http://sourceforge.net/projects/didl-plug-in/>

[23] DSpace, <http://www.dspace.org>

[24] Fedora, <http://www.fedora.info/>

[25] mod_oai project, <http://www.modoai.org>

謝辞

次の方々に感謝の意を表します。:

  • OAI-PMHを使った複合オブジェクトのハーベスティングに関する研究・開発に対して: ロスアラモス国立研究所研究図書館の デジタルライブラリ研究およびプロトタイプ作成チームのLyudmila Balakireva、Jeroen Bekaert、Mariella Di Giacomo、Henry Jerez、Xiaoming Liu、Thorsten Schwandery
  • ロスアラモス国立研究所におけるOAI-PMHを使った米国物理学会コレクションのミラーリングプロジェクトの活動に対して: APSのMark Doyleと Gerard Young
  • 機関リポジトリから複合オブジェクトをエクスポートする実験的プラグインの作成のサポートに対して: Robert Tansley(DSpace & HP)、 Sandy PayetteとChris Wilper(Fedora & コーネル大学)
  • LANLリポジトリの運営およびAPSミラーリングプロジェクトのサポートに対して: 米国議会図書館の全米デジタル情報基盤保存プログラム
  • mod_oaiプロジェクトのサポートに対して: アンドリュー・W・メロン財団
Copyright © 2004 Herbert Van de Sompel, Michael L. Nelson, Carl Lagoze, and Simeon Warner
spacer
spacer

頁先頭 | 目次
検索 | 著者索引 | タイトル索引 | バックナンバー
前の論文 | 次の論文
ホーム | 編集者へのメール送信

spacer
spacer

D-Lib Magazine Access Terms and Conditions

doi:10.1045/december2004-vandesompel