機関リポジトリ等のデジタルリポジトリを対象とする
リポジトリ横断型のユーザー指向サービスを支援する技術・組織モデル
Alma Swan(キー・パースペクティブ有限会社)
Chris Awre(ハル大学)
プロジェクト参加機関:
キー・パースペクティブ有限会社
ハル大学
ノッティンガム大学 SHERPA
サウサンプトン大学電子工学・計算機科学科
JISCは、デジタルリポジトリ横断型のユーザー指向サービスを支援する持続可能な技術モデルおよび組織モデルの特定を目的とする予備的評価研究を行うよう本プロジェクト参加機関に委託した。この中で、英国の成人教育・高等教育コミュニティで関心がもたれているオープンアクセスリポジトリが、特に対象として取り上げられていた。本研究は、全国規模のリポジトリサービスの基盤ないしは枠組みを確立することを視野に入れて、リポジトリへのアクセスとリポジトリの利用を支援する戦略に情報を提供することを目的とするものである。
対象となるユーザーとその要求は次のようにまとめられる。
利用者の要求分析に基づいて、リポジトリサービスの全体的枠組みを構築した。この枠組みには、3つの主要レベルに位置するサービスが含まれている。受入レベルのサービスは、リポジトリ管理者やデポジットするユーザーの技術上・処理上の要求を満たすものである。コンテンツアグリゲータレベルのサービスは、メタデータの作成・品質向上サービスとそれに付随する技術である。アグリゲータレベルの上に位置する出力レベルのサービスは、リポジトリのコンテンツを利用して、各専門分野独自の要求を満たす保存、研究評価とモニタリング、資源発見、出版、オーバーレイジャーナル、メタ分析、(橋渡しサービス)を提供するものである。
過去に行われた、あるいは現在行われている研究や専門家の意見から、英国のリポジトリをリンクする枠組みに関する数多くの重要な教訓や識見が得られた。その主なものは次のとおりである。
受入レベル: 技術的能力は、機関により大きく異なる。これは、リポジトリが提供するメタデータの品質、リポジトリレベルで行われている保存活動、コンテンツを捕捉するシステム、が大きく異なるからである。リポジトリが有するコンテンツの量もまた大きく異なっている。研究論文プレプリントの登録件数を上げるには、著者コミュニティへのアドボカシーが極めて重要である。この点において、知的財産権と著作権は依然として大きな躓きの石となっている。これらの障害物の中には、リポジトリの成長を模索する管理者のやる気を大きく損ねる効果を持つものもある。また、サービスに利用できるオープンアクセス資料の量が依然として少ないことも意味している。
アグリゲータレベル: メタデータの品質———あるいは、メタデータの提供自体———が依然として重要な問題である。本研究で提案する技術モデルは、この点に関する最適なアプローチを説明する(以下を参照)。
出力レベル: 専門分野に特化した資料発見ツールが重要である。ユーザーは様々な方法でリポジトリに到達することができるが、このツールは、具体的な要求を持つユーザーがリポジトリに至るルートを提供するものである。探している物がそこにあることを知っていれば、ユーザーはある特定のリポジトリを検索するかもしれない。特定の分野や主題を探していれば主題ベースのポータルを利用するかもしれない、(動画や学位論文などの)オブジェクト種別でリポジトリコンテンツをアグリゲートしたポータルを利用するかもしれない。しかし、多くの場合、ユーザーは、GoogleなどのWebサーチエンジンを経由してリポジトリのコンテンツにたどり着くことになる。また、リポジトリ管理者や著者は、GoogleなどのWebサーチエンジンによるコンテンツやリポジトリの公開を評価している。これは国レベルの枠組みにも組み込まれることが望ましい。
全国的にリンク化されたリポジトリ環境の構成要素とそこで必要とされるサービスの候補は次のとおりである。
受入レベル:
データレベル:
アグリゲータレベル:
出力レベル:
最後の項目を除いて、これらの活動は、レベルは様々であるが、全て既存のサービスやプロジェクトで行われているか、現在検討されているものである。ただし、多くの場合、個々別々に限られた分野で行われているか、実証プロジェクトとして行われているかである。そのようなパイロットレベルあるいはプロジェクトレベルの活動を、実行可能な全国的枠組みとして必要とされるレベルに拡大するには、慎重な計画とJISCによる強力な指導を必要とすることになる。
最優先のサービスであると認められたものは次のとおりである。
二番目に優先すべきサービスは次のとおりである。
エンドユーザサービスの開発を支援するアグリゲーション(集約)モデルが提案された。このモデルは、望ましい技術アプローチとして先に勧告したオープン・アーカイブズ・イニシアティブのメタデータハーベスティングプロトコル(OAI-PMH)によるハーベスティングの上に構築されている。しかしながら、オープンアクセスリポジトリなどのリポジトリの潜在的なコンテンツ量の大きさを考えると、OAI-PMHが持つ能力の詳細な調査だけでなく、同じ目的を達成するために使用できる可能性のあるその他の標準や技術を特定する必要もある。
アグリゲーションは、エンドユーザサービスの基礎としてメタデータと場合によってはコンテンツを同時に提供するものであり、数多くのリポジトリにサービスが個別に対応する必要を無くすものである。アグリゲーションは、この基礎を安定したものにするためにメタデータを強力にコントロールしているが、コンテンツのコントロールに関してはメタデータの提供元であるリポジトリに完全に任せている。定期的なアグリゲーションにより、これを利用するエンドユーザサービスは効率的で最新のアクセスが可能になる。リポジトリを個別に使用するサービスに比べてアグリゲーションが価値のある最大の点は、エンドユーザサービスの支援に都合の良いようにメタデータやコンテンツをリファクタリングすることができることである。
メタデータとコンテンツ
リポジトリ横断型のすべてのエンドユーザサービスの肝は、リポジトリが有するデジタルコンテンツに関する高品質なメタデータである。あらゆる形態のメタデータの自動生成はさらなる研究が必要な分野であるが、メタデータが作成されうる場所を特定するための水平思考にも使用することができる。生成は、可能であればリポジトリが内部的に使用できるベースとなるリッチなメタデータレコードの作成につながるべきであるが、一方で、アグリゲータに公開するための外部メタデータフォーマットの基礎としても機能するべきである。
アグリゲーションにコンテンツを公開することは、メタデータの公開ほどには理解されていない。もっともふさわしい技術を特定するためにはコンテンツを公開する際に我々が望んでいることを正確にモデル化することが必要である。モデル化というアプローチは、アグリゲータやエンドユーザサービスが利用しているものを明確に識別できるようにデジタルコンテンツや関連する構成要素に識別子を付与したり、その粒度を決定したりする際にも重要になる。
リポジトリインターフェース
OPAI-PMHは、リポジトリ横断型のアクセスを容易にするためにOAIサービスプロバイダの間で広く使用されている。セットなどのプロトコルコンテナを使用することにより、OAI-PMHの価値は高まり、サービスプロバイダは提供するエンドユーザサービスに合わせてアグリゲーションの対象を絞ることが可能になる。RSSやATOMニュースフィードはそれ自体、個々のリポジトリを対象とする小規模なアグリゲーションであり、RSS/ATOMリーダーは多くのリポジトリからニュースフィードを集めるアグリゲータの役目を果たす。Webクローラは利用可能なWebページ情報をアグリゲートし、通常Webサーチエンジンを通じてこれらの情報を提供する。これら2つの代替アプローチは、エンドユーザサービス構築の基礎となるアグリゲーションを可能にする複数のルートを提供するものである。
アグリゲーションとエンドユーザサービス
アグリゲーションは、ひとたび作成すればメタデータ生成の基礎としての役割を果たすことができ、スケールメリットを生かしてより成功の見込めるオプションを提供できる。通常、アグリゲーション自体は直接エンドユーザサービスの役目を果たすことはなく、これを基礎とするエンドユーザサービスを実現するために様々なインターフェースを提供している。これには、OAI-PMHやRSS、あるいはWebクローラを通じたさらなるアグリゲーションのためにデータを再公開することも含めることができる。ただし、エンドユーザサービスにより公開された後も、機能を追加したり、全コンテンツを入手したりするために、常にメタデータ提供元のリポジトリにアクセスできるようにするべきである。
アーキテクチャ上のアプローチ
アグリゲーションモデルの3つの主要要素は、リポジトリ、アグリゲータ、エンドユーザサービスである。リポジトリとアグリゲータは独立であると思われるが、エンドユーザサービスは通常アグリゲータと密接に関係する。ただし、(Web 2.0アプローチなどを通じて)両者を分離する傾向が高まっている。これら3要素をサービスとして捉え直すことにより、要素の実装方法に最高の柔軟性を与えることができるサービス指向アーキテクチャに近づけることが容易になる。これらの要素を連携させる方法を示す2つの具体的な事例が、aDOReとCORDRAである。両プロジェクトは、できるだけリッチなメタデータを公開してアグリゲーションを容易にするという考え方とリポジトリ横断型のエンドユーザサービスの開発を推進している。aDOReはCORDRAの概念の多くを実際に実証しており、両者は将来の開発に資することができる。
将来展望
アグリゲーションモデルの要素間のコミュニケーションは、効果的なエンドユーザサービスの開発にとって極めて重要である。これは、エンドユーザが教育と研究では異なる各自の役割に合わせるために必要な個別化されたサービスの開発を支える根拠となるものである。
リポジトリサービスは、それにふさわしい様々なビジネスモデルを採用できる。ここでは、5つのモデルを取り上げる。
最も経費がかかるのは、保存サービスとアクセス・認証サービスであると思われる。資源発見サービスとメタデータサービスにかかる経費は中から高程度であろう。リポジトリの提供、ホスティング、デジタル化、利用統計、橋渡し、出版の各サービスは中程度の経費で運用できるだろう。助言、モニタリング、メタ分析、技術移転、主題リポジトリ、暫定リポジトリ、オーバーレイジャーナルの各サービスは、比較的低額の経費で運用可能であると予想される。
ビジョンを実行に移す方法に関して多くの勧告がJISCに対してなされた。連絡と調整に重点を置いた全体的かつ強力な運営が必要とされる。システムの様々な要素がそれらだけで効率的な方法により正しい場所に収まることはない。その主な理由は、配分される助成金をシステムのある部分が継続的に必要とするからである。開発を調整する候補として自然なのはJISCである。JISCは望ましい成果に対するビジョンとシステム全体を支える公共部門の開発を左右し推進するために必要な資金を持っている。私企業に残すことのできる、あるいは残すべき開発の機会は、全体計画の一部として意見交換をすることができる。
従って、勧告では、JISCが運営上で強力な役割を果たすこと、必要に応じて研究コミュニティやリポジトリ、サービスプロバイダ候補との連絡窓口を持つこと、これらの活動を調整することを求めている。
さらに、情報がどのように利用されるかについてさらなる研究を行うことが勧告された。その結果により、サービスの開発方法やリポジトリのコンテンツ公開方法に影響を与えるからである。さらなる研究が必要と思われるその他の課題は、メタデータの自動生成と識別子の役割である。アグリゲーションのための標準として、OAI-PMHに加えてRSSとATOMの採用が勧告された。これらは特定のユーザーコミュニティを対象としたサービスにおいて明確な利点を持っているからである。
JISCに対するすべての勧告は以下の通りである。
キー・パースペクティブ有限会社 Alma Swan
ハル大学 Chris Awre
2006年6月5日
英国の大学の約1/3はオープンアクセス(OA)リポジトリを所有しているが、保管されているコンテンツの量はほとんどのリポジトリで非常に少なく、しかも、出版済みの研究論文の数は、研究報告書や学位論文、プレプリントに比べて、著しく少ない1。本研究を支えるビジョンは、研究活動を行っているすべての機関の研究成果を収集、公開することにより、機関リポジトリが英国におけるオープンアクセス提供のバックボーンを形成することである。これにより、英国の研究コーパスが実現し、利用や操作が可能となり、将来の研究活動に資することになる。これは、時機を得た、適切で達成可能なビジョンではあるが、実現に至るにはまだ遠いものがある。
研究者はオープンアクセスをまったく知らないか、知っていてもそのメリットを知らされていない。あるいは、そのメリットは知っているが何らかの理由で自分の研究成果をオープンアクセスにしていない。機関は、オープンアクセスがもたらす可能性とチャンスに徐々にではあるが気が付き始めている。リポジトリの利用が研究主体の組織における文化として組み込まれるようになるには、研究者の慣習および機関の運営方針や手続きの両者において変革がなされる必要があるだろう。研究助成機関はオープンアクセスのメリットを理解し始めており、公金による研究助成を行う際には、少なくともこの概念の道義的正当性を口にするようになっている。しかし、(私的助成財団である)ウェルコム・トラストの唯一の例外を除き、今のところ、助成対象の研究はオープンアクセスにするという方針を策定する必要性を理解している助成機関は存在しない。これは、英国の科学出版について調査した下院科学技術委員会の報告書(HCSTC, 2004)における勧告の実施を拒否した英国政府において特に顕著である。さらに、英国研究会議(RCUK)レベルにおいても1段階後退し、個々の研究会議が独自の活動を支持しており、2005年初夏に初めて発表されたRCUK方針文書案(RCUK, 2005)で提案された方針が全RCUK方針となる機会はもはや消えたように思われる。
それでもなお、次の四半期には英国におけるオープンアクセスは発展が約束されている。個々の大学はリポジトリを推し進め、リポジトリを満たすための方針を策定している。また、多くの大学でセルフアーカイビングの義務化が目前となっている。リポジトリソフトウェアの開発、相互運用性、リポジトリの確立、データリポジトリ、OAの法的側面、保存、e-ラーニング、マシンサービスなどに関するJISC助成プロジェクトは、オープンアクセスをいかに発展させるか、また、活発な開発プログラムにおけるグッドプラクティスをいかに確立するかについて、我々の理解や知識を高め続けている。学術コミュニケーション分野の研究者や研究グループは、アドボカシーや情報提供活動を行い、また、OAの理解を高めそのメリットを測定するツールの開発に取り組んでいる。そして、ついに研究者自身も反応の兆候を示し始めている。
したがって、今やこれらすべての活動や発展を全体として統一するためにいかに連携するかを検討する段階である。JISCの意向は、全国規模のリポジトリサービスの基盤ないしは枠組みの確立を視野に入れて、リポジトリへのアクセスとリポジトリの利用を支援する戦略を開発することである。本研究はこれら戦略を開発するための情報を提供することを目的とする。
JISCは、デジタルリポジトリ横断型のユーザー指向サービスを支援する持続可能な技術モデルおよび組織モデルを特定することを目的とする予備的評価研究を行うよう本プロジェクト参加機関に委託した。この中で、英国の成人教育・高等教育コミュニティで関心がもたれているオープンアクセスリポジトリが、特に対象として取り上げられていた。本研究は、全国規模のリポジトリサービスの基盤ないしは枠組みを確立することを視野に入れて、リポジトリへのアクセスとリポジトリの利用を支援する戦略に情報を提供することを目的とするものである。
JISC Digital Repositories Programmeは、リポジトリに関する幅広い研究の支援を過去も現在も続けている。プログラムには、データ、e-ラーニング、保存、法的・政策的問題、マシンサービス、インフラ統合を対象とするプロジェクト群を含んでいる。本研究は、このうち最後のプロジェクト群に属しているが、英国の様々な種類のリポジトリを連携させるために、技術的・組織的問題を包括的なスキーマに纏め上げるモデルを追求するものであり、それゆえ全プログラムを包括する考え方を得るための試みでもある。
本プロジェクトは次の4つの要素を持っている。
オープンアクセスという概念は、自由に利用できる情報を前提としている。そして、OAI標準を策定する際には、分散して存在する情報資源を相互に利用できる形で結びつけることにより検索できるコンテンツの量を最大にする一方で、個々のアイテムの配置場所についてユーザーは考えなくても済むようになることを求めた。これは、学術コミュニティにとって、何よりも研究・教育・学習を行う上で非常に大きな重要性をもっていることは疑いないが、同時に、これらの活動をより良く行う方法を理解するために必要な手段や学術研究部門のための経営情報ツールも提供している。
相互運用性は最も重要なものであるが、その実現は容易ではない。相互運用性に関わるすべての要素は技術の進歩とともに常に変化している。しかし、その目指すものは、ユーザーに価値と利便性を提供するサービスを構築できるような形でリポジトリを連携することである。現在のところ、リポジトリの設置はまばらである。リポジトリを所有している機関もあるが、多くは所有していない。部局レベルで複数のリポジトリを所有している機関や、機関レベルで学位論文やe-プリント、研究データなど独立した目的を持つ複数のリポジトリを提供している機関もある。本プロジェクトのビジョンが求めるものは、これらのリポジトリを効果的に連携することにより、その区別をあいまいにし、その違いが強調されるのをサービスの提供レベルに止めることである。
どんなモデルであれ、英国のリポジトリを連携し、その上に、高等教育・成人教育コミュニティにとって有用な一連のサービスを構築するという概念を支えるためには以下の要件を満たさなければならない。
本研究は指定によりオープンアクセスリポジトリに対象を絞る必要があったので、ほとんどの部分で、コンテンツは自由に利用できるという暗黙の仮定をしている。ただし、ある種のコレクションの複雑性やモデルがそれを認めている場合など、いくらかの例外が存在することを我々は理解している。また、オープンアクセスコンテンツを使って構築されたリポジトリサービスがそれ自体、様々なビジネスモデル(あるものは無料であり、あるものは有料である)を示していることも理解している。ここでの目標は、実現可能であり、オープンアクセスリポジトリを相互に効果的に接続する、そして、サービスプロバイダが英国の全オープンアクセス資料を使ってサービスを開発できるようにするリンキングモデルを作成することである。その結果現れる魅力的なサービスは、資料の提供者から支持を受けるようになり、オープンアクセスを推進する新たな中核となる。なぜなら、新規サービスプロバイダがそれを採用しようとするモチベーションになるからである。
我々はこの研究を既存の報告や研究成果の調査・検討を通じて、また、関連分野における経験者からアドバイスや意見を求めることにより取り組んだ。後者については、フォーカスグループによる方法や個人との面会や電話によるインタビュー、電子メールによる質問状の送付、数多くの電子メールによる議論を通じて行われた。これらの複数に参加してくれた人もいた。我々は特に彼らの寛容さに感謝している。本研究を通じて意見をお聞きしたのは以下の人々である。各人に感謝の意を表する。
Stephen Abrams, ハーバード大学 | Robert Kiley, ウェルカム・トラスト |
Sheila Anderson, AHDS | Gareth Knight, AHDS |
Theo Andrew, エジンバラ大学 | Larry Lannom, CNRI |
Stephen Andrews, 英国図書館 | Norbert Lossau, ビーレフェルト大学 |
Ann Apps, MIMAS | John MacColl, エジンバラ大学 |
Anne Atkins, 西部地区大学コンソーシアム | Sally MacDonald, ペトリー博物館(ロンドン) |
Simon Bains, スコットランド国立大学 | Roddy MacLeod, ヘリオット・ワット大学 |
Phil Barker, CETIS Metadata and Digital | Ross MacIntyre, MIMAS |
Repositories SIG | Mark McFarland, テキサス大学 |
Jonathan Bell, ウェールズ大学アベリストウィス校 | Ken Miller, 英国データアーカイブ |
Kerry Blinco, DEST | Eric Lease Morgan, ノートルダム大学 |
Eddie Boyle, EDINA | Martin Moyle, ユニバーシティ・カレッジ・ロンドン |
Peter Brantleyとその同僚, カリフォルニア・デジタル・ライブラリ | William Nixon, グラスゴー大学 |
Tim Brody, サウサンプトン大学 | Jerry Persons, スタンフォード大学 |
Peter Burnhill, エジンバラ大学 | Andy Powell, EduServ財団 |
Paula Callan, クィーンズランド工科大学(ブリスベン) | James Pringle, Thomson Scientific(フィラデルフィア) |
Debbie Campbell, ARROW(キャンベラ) | Vanessa Proudman, ティルブルグ大学 |
Lorna Campbell, CETIS | Peter Raftos, オーストラリア国立大学 |
Les Carr, サウサンプトン大学 | Christine Rees, EDINA |
Priscilla Caplan, フロリダ大学 | Dan Rehak, 学習システムアーキテクチャ研究所 |
Eric Childress, OCLC | James Reid, エジンバラ大学 |
Mark Childs, ワーウィック大学 | Robin Rice, エジンバラ大学 |
Sayeed Choudhury, ジョン・ホプキンス大学 | Griff Richards, サイモン・フレーザー大学 |
Mike Clarke, 高等教育アカデミー | John Robertson, ストラスクライド大学 |
James Clay, 西部地区大学コンソーシアム | Peter Robinson, CLICプロジェクト、オックスフォード大学 |
Tim Cole, イリノイ大学 | Steve Rogers, JORUM |
Sarah Currier, CD-LORプロジェクト | Rosemary Russell, UKOLN |
Andy Dawson, CDLR | Arthur Sale, タスマニア大学(ホバート) |
Lorcan Dempsey, OCLC | Bas Savenije, ユトレヒト大学 |
Gordon Dunsire, ストラスクライド大学 | Sandy Shaw, EDINA |
Ed Fox, バージニア工科大学 | Frances Shipsey, VERSIONS、ロンドン・スクール・オブ・エコノミクス |
Morag Greig, グラスゴー大学 | Pauline Simpson, NERC |
Andrew Grout, エジンバラ大学 | MacKenzie Smith, MIT |
Kat Hagedorn, OAIster、ミシガン大学 | Thornton Staples, バージニア大学 |
Cathrine Harboe-Ree, ARROW、モナッシュ大学 | Tim Stickland, EDINA |
Stevan Harnad, ケベック大学(モントリオール) | Amber Thomas, JISC, WM-Share |
Rachel Heery, UKOLN | Andrew Treloar, ARROW, モナッシュ大学 |
Jessie Hey, サウサンプトン大学 | Graham Turnbull, SCRAN |
Sarah Higgins, エジンバラ大学 | Herbert Van de Sompel, ロスアラモス国立研究所 |
Amanda Hill, MIMAS | Leo Waaijers, SURF |
Tore Hoel, ノルウェイ教育省 | Caroline Williams, リソース・ディスカバリー・ネットワーク |
Bill Hubbard, SHERPA、ノッティンガム大学 | Andrew Wilson, AHDS |
Philip Hunter, IRIScotland、エジンバラ大学 | Arnott Wilson, エジンバラ大学 |
John Houghton, ビクトリア大学(メルボルン) | Melanie Wright, UKDA |
Arne Jakobsson, NORA, Oslo | Jeff Young, OCLC |
Keith Jeffrey, CCLRC | Rowin Young, CETIS 評価SIG |
Dean Jones, 国立テキストマイニングセンター |
ノルウェイ、オランダ、オーストラリアには、リポジトリネットワークが存在する。それぞれのシステムは、各国の要件や特性に合わせて異なる方針に従って構築されている。しかし、JISC同様、相互運用性という考えを共有しており、それにより、幅広い分野にわたるオープンアクセスコンテンツの全国的データベースを提供している。このデータベースにより、各専門分野はデータを追加、検索、発掘、再利用、活用することができ、将来的にはこれは研究の基礎となるだろう。以下、各ネットワークについて極めて簡単に紹介する。
ノルウェイのネットワークは現在のところ4つの研究大学のネットワークに過ぎないが、残りの研究大学にも拡張される予定であり、将来的には継続教育分門のネットワークとリンクされる予定である。各大学はリポジトリを持ち、コンテンツをOAIハーベスタに公開している。そして、NORA(Norwegian Open Research Archives)2がユーザーに検索機能を提供している。現在のところ、この国で義務化を行っている大学はないが、ノルウェイの各大学は既に発表した論文の詳細を最新研究情報システム(CRIS: Current Research Information System)にデポジットするよう研究者に要求している。現在の目標は、NORAとCRISをリンクすることにより、研究者のデポジットが1回で済み、メタデータがシステム間で交換できるようにすることである。ネットワークを使ったその他のサービスは今のところ存在しないようである。システムは政府の資金援助を受けている。
オランダでは、SURFがDAREnet3を構築しており、オランダの全大学の機関リポジトリをリンクしている。SURFも政府からの資金援助を受けている。DAREはOAI準拠のコンテンツをハーベストし、検索機能を提供している。さらに、オランダにおける200名の一流研究者の研究成果のショウケースであるCream of Scienceサービス4を提供している。オランダの多くの大学はシステム上に主題別のサービスを構築している。テキストやビデオ、音源、動画などのファイルの保存はオランダ王立図書館で行われている。研究データの保存は、オランダ芸術科学アカデミーが担当している。
オーストラリアでは、研究大学の上位校がリポジトリを所有しており、これらはリンクされ、ARROW(Australian Research Repositories Online to the World)5を形成している。ARROWは政府予算で開発・運用されている。オーストラリア国立図書館で開発・運用されているARROW Discovery Serviceが検索機能を提供している。
リポジトリをリンク化するモデルはどんなものであれ、ユーザーの究極の目的を念頭に置いて設計する必要があり、魅力的な技術的ソルーションの使用やエレガントな設計という誘惑の犠牲になるべきではない。従って、システムの潜在的ユーザーの要求を初めから考慮することが重要である。これは指定された研究の対象としてはそれほど重要なものではなかったが、研究の結果を左右するものであった。潜在的ユーザーが要求するものを適切に提供しないモデルは、最初から失敗が約束されている。我々は、様々なタイプのユーザーの要求を調査した先行研究をここに抜き出した。対象となるユーザーのタイプは、エンドユーザ(あらゆる専門分野の研究者、教師、学習者)、研究管理者、雇用者、助成機関、これらの代わりに活動する仲介者、リポジトリを持つ機関あるいはその他の団体、である。
全国リポジトリサービスの(読者側から見た)概念は、相互運用性を強調するオープンアクセスの概念と完全に同じものではない。ほとんどのエンドユーザ(研究者、教師、学習者)はGoogleやOAIsterなどのWeb全体を対象とする大規模なアグリゲータを経由して英国のリポジトリコンテンツを利用することを選んでおり、全国的アグリゲータサービスを知らず、おそらく気にも掛けていない。しかし、異なる役割、異なるニーズ、異なる動機を持つその他のユーザーには、これはそれほど当てはまらないかもしれない。本研究の目的に照らして、ユーザーは次のように分類される。
リポジトリ管理者: 機関リポジトリ、主題リポジトリ、種類別リポジトリ、特殊コレクション(博物館コレクションなど)リポジトリを管理する者。
研究者・読者としてのエンドユーザ: このカテゴリには、あらゆる分野における研究者と学者、教師、学習者、関心を持つ一般市民が含まれる。
コンテンツ提供者としてのエンドユーザ: コンテンツ提供者はほとんどの場合、研究者・読者と同じで人であるが、リポジトリコンテンツの提供者としての役割を果たす際には異なるニーズを示している。
コンテンツアグリゲータ: リポジトリのコンテンツを操作、選択、収穫、変更し、これを適当な形態でそれぞれのユーザーに提供する者である。
メタユーザ: メタユーザとは、単なる資料発見のためではなく、分析作業を行うためにデータベースを使用する者である。例えば、研究会議などの助成機関、雇用機関を含む研究評価審査官、(それに限らないが主にオープンアクセスコミュニティで)研究指標を研究している人々である。
起業家: この言葉は、プロジェクトをサービスに移行したいと考える人々、顧客に付加価値サービスを提供する方法を考えている人々を含んでいる、その1例としては、特定の種類、あるいは一部のリポジトリコンテンツへの入り口を提供する機会を検討している国立図書館が挙げられるだろう。他には、学術出版社や、特定の産業や一般市民のための注文生産サービスを提供している専門出版社が挙げられる。
これらの人々は、それぞれ特定のニーズや要求をもって一連の活動を行っている。これらを表1に注釈付きで示した。この後、各ユーザーグループの要求を簡単に論じ、これらの要求を満たすと思われるリポジトリサービスを説明する。
ユーザー | 要求 | サービス候補 |
---|---|---|
リポジトリ管理者 | リポジトリのビジネスケース | アドボカシー支援サービス |
知的財産権に対する助言 | 著作権、知的財産権、その他関連事項に関するガイドラインを提供し支援する法的助言サービス | |
リポジトリの構築 | リポジトリ構築・保守サービス | |
リポジトリのホスティング | リポジトリホスティングサービス | |
技術的問題 デジタルコンテンツ メタデータ: 構造 統制用語システム ファイルフォーマット 保存 データ公開(OAIなど) 著者名典拠システム | 技術的助言・提供 デジタル化サービス メタデータ作成助言サービス 承認サービス ファイル管理・移行サービス 専門家による保存サービス 技術的助言サービス 著者名典拠サービス | |
アクセスと認証 | アクセスと認証サービス | |
エンドユーザサービスとアドボカシー コンテンツのデポジット コンテンツの利用 | エンドユーザのニーズ分析 アドボカシー助言サービス | |
研究者としてのエンドユーザ | リポジトリ横断検索 主題検索 オブジェクトの種類別検索 個人のニーズに合わせたオーダーメイド 目的に合わせる 支払いシステム アクセスと認証 付加価値コンテンツ |
資源発見システム 資源発見システム 資源発見システム パーソナル化サービス 目的別配布サービス 料金徴収サービス アクセスと認証サービス 出版サービスとオーバーレイジャーナルサービス |
情報提供者としてのエンドユーザ | 査読 デポジットする場所 デポジットのためのペストプラクティスの紹介 1回限りのデポジット ファイルフォーマットなどの技術的問題への助言 権利問題に関する助言 利用データ インパクトデータ コンテンツの「所有権」 オープンアクセスを納得させるビジョン |
査読サービス 機関リポジトリ・国立リポジトリ リポジトリ「マッピング」サービス(図では橋渡しサービスと呼んでいる) 技術的助言サービス(保存など) 権利および知的財産権に関する助言サービス(SHERPA/RoMEOなど) 利用統計サービス 引用分析サービス アドボカシーサービス |
コンテンツアグリゲータ | 優れたメタデータ | メタデータ品質向上サービス 目録サービス テキストマイニングおよびデータマイニングサービス |
メタユーザ(雇用者、助成機関、研究管理者、政府、エコノミストなど) | 利用統計 研究評価およびモニタリング メタ分析 |
利用統計・フィードバックサービス 引用分析サービス データマイニングおよびテキストマイニング |
起業家(リセーラ、技術移転専門家など) | 技術移転仲介者 出版社 |
専門分野別の資源発見サービス 技術移転サービス マッピングおよび橋渡しサービス |
表1 ユーザーグループとその要求するリポジトリサービス
リポジトリのためのビジネスケースの作成はある種の組織では権限の一部であるが、大学などの研究指向の機関の場合は、通常、組織内でこの概念を宣伝している図書館職員が(しばしば研究者の「支持者」と協力して)一から作成し、上級管理者に示す必要がある。リポジトリは一群の無形の資産を表しているので、これを支持する特別な種類の論拠が必要である。グラスゴー大学で現在行われているespidaプロジェクト6はそのようなビジネスケースの作成を支援するモデルを開発している。これは、この分野において実行できるサービスの種類を示す良い一例である。さらに、アドボカシー資料や背景情報の提供は、リポジトリ管理者がその機関のための納得できるビジネスケースを作成し提供することを支援するものである。
知的所有権と著作権に関する問題への助言は、リポジトリ管理者により常に求められている。知的財産権に関しては、研究指向の機関では、機関の研究成果をすべての人々に公開するリポジトリという考えについて、通常、技術移転室が非常に強い関心を持っており、必ずしも前向きではない方向で開発に影響を与えたいと考えている場合がある。著作権に関しては、多くの事例に存在する問題をリポジトリ管理者が解決することは依然として容易ではなく、信頼できる実用的な助言や解決策は非常に貴重である。
機関の独自資源を使って施設内にリポジトリを構築することが様々な理由で不可能な場合がある。この作業を業者にアウトソーシングすることは1つの答えである。アウトソーシングする作業は、リポジトリの構築だけの場合もあるし、リポジトリを構築し、さらに機関に代わって運用をする場合もある。
リポジトリ管理者が直面する技術的問題は軽視すべきではない。この問題には、デジタル形態のコンテンツの入手から、適切なメタデータの作成、研究者コミュニティにより異なるファイルフォーマットの扱い、利用可能な形態でのコンテンツの長期保存(ファイルフォーマットの変更や標準の改訂があった場合)、適切な視認性をリポジトリコンテンツに与えるためにふさわしい形態でのメタデータの公開などが含まれる。この分野には既にいくつかのサービスが存在する。たとえば、米国物理学会は、他の出版社や特に小さな学会のためにXML変換サービスを提供している。英国のAHDS7は、英国芸術人文科学研究会議の助成を受けた研究者に対してファイルの作成やフォーマットに関する助言を行っており、さらに、保管および保存サービスをこのコミュニティに提供している。
著者名典拠システムは、すべての著者を正確に同定したい、名前のつづりを正確にしたい、さらに、様々な形で現れる著者名(例えば、出版物のスタイルに合わせた結果として、J. SmithがJ.A. SmithやJohn Smithと同一人物である場合がある)をただ一人の著者に結び付けたいと願っているリポジトリ管理者により求められている。
ファイルフォーマットは現在でも問題であるが、今後さらに大きな問題になりそうである。国立公文書館はPRONOMファイルレジストリサービス——この分野において世界の先頭に立つサービスである——を提供しており、現在ではEPrintsとリンクしている。リポジトリ管理者は長期にわたるファイルフォーマットの管理に関してさらに大きな支援を必要としている。アクセシビリティに関する専門的技術を共有する必要がある。
実際はそうではないことを我々は知っているが、エンドユーザはデポジットするのに多くの時間を取られることを心配している(Swan & Brown, 2005; Carr & Harnad, 2005)。彼らはこの件に関して助言と支援を必要としている。この作業は大部分リポジトリ管理者にかかっている。アドボカシーを通じて(以下を参照)エンドユーザを補助することができるからである。その他の方法でリポジトリに受け入れるコンテンツの量を最大にすることもできる。すなわち、データフィードやデータの一括インポート・エクスポートを通じてバッチ受入をすることにより、受入作業を効率的にすることが可能である。ただし、リポジトリ管理者の役割をしているすべての人がこれにより何が可能であるかを理解しているわけではない。
主題分類は、現在のところ、英国の平均的な機関リポジトリでは仮にあったとしても初歩的なものに過ぎない。しかし、これは、(行動研究が示しているように)たとえ検索において有効に使われていないとしてもハーベスティングの重要な前提条件である。この分野ではオーストラリアが進んでいる。分類の問題を解決する全国サービスが英国では有用であろう。
最後に、リポジトリは個々の著者や研究グループ、部局により良いサービスを提供できる必要があることを多くのプロジェクトが示している。たとえば、特定の形式で、あるいは、特定の目的のために情報を引き出すことができることが重要であり、また、著者名による検索は、現在利用できるシステムより良いシステムが必要である。
これらの純技術的問題に加えて、オープンアクセスでないコンテンツがある場合のユーザーになりうる者の認証、認証ユーザーによるアクセスを実装する方法、さらに、取扱注意あるいは利用制限のあるデータが含まれている場合にデータの利用や利用後のデータの扱いの適切なコントロールという付随的な問題が存在する。この種の制限は、例えば、社会科学における大量のデータに対し適用する必要がある。
リポジトリ管理者や(最近では)著者は、コンテンツがどの程度利用されているのか、どこで利用されているのかを知りたがっている。この種のフィードバックは、著者にデポジットを勧める際に重要であり、また、リポジトリ管理者が機関の上級管理者から委任を取り付けるために利用される。
リポジトリ管理者は、コンテンツが閲覧・利用されることを望んでいるが、同時に、コンテンツに対するある種の所有権を確立することも望んでいる。彼らは、検索者にコンテンツを提供する全国サービスには賛成であるが、処理の過程でコンテンツの来歴がわからなくなるのであれば賛成しない。我々がインタビューした人はそう語っている。CLIC(Community Led Image Collections)による画像コレクションに関する研究でも同様なことが報告されている8。
最後に、リポジトリの構築と運用は物語の一部に過ぎない。リポジトリにコンテンツを得ることが残っている。研究者やコンテンツの作成者コミュニティへのアドボカシーが不可欠であり、リポジトリ管理者は機関のコミュニティに対し最も効率的にアドボカシーを行うための支援を求めている。
エンドユーザーコミュニティにおいてもユーザーグループが異なれば、一次データへの入り口は異なっている。広範囲の分野をカバーする発見サービスを使うグループもあれば、主題別やオブジェクト種類別のポータルや発見サービスを使うグループもある。リポジトリが所有する情報へのアクセスや利用、デポジットの方法、さらに情報自体の性格にも学術分野により違いがあることが様々な研究で紹介されている(Swan & Brown, 2005; Sparks, 2005; Day, 2003)。注意すべき点は、ほとんどのユーザーがGoogleやその類似サービスによるルートを好んでいることである。これは、JISCの助成を受けた時代別メディアコレクションに関する研究で示されている(Asensio, 2003)。また、最近行われたサウサンプトン大学ECSリポジトリにおけるログファイルの解析から、リポジトリ自身の「表玄関」から検索を行った者は11%に過ぎず、残りはGoogleなどのアグリゲータサービスから来ていることが示された(Carr, 2006)。実際、エンドユーザの大多数(学生と一部の研究者)にとって「Googleで見つけることができなければ、それは存在しない」ことであると図書館員はしばしば断言している。
しかし、ユーザーによっては、主題別やオブジェクト種類別(デジタル画像や学位論文がその例である)の専門化された発見サービスによるルートが好まれている。主題別サービスによりリポジトリ所有文献に至るエンドユーザがいることの重要性は多くの著者により明らかにされている(Peters, 2002; Stephen & Harrison, 2002; MacLeod, 2005; Heery & Anderson, 2005)。JISCはこの分野に関する多くのプロジェクトに助成を行っており、これらは本研究で開発したモデルの該当部分に情報を提供している。
特定のコミュニティにおけるユーザーの要求の詳細については、いくつかのプロジェクトで既に報告されている。例えば、Geo-Data Browserプロジェクトは、スキルや専門知識に差のある利用者が情報を検索する際に、比較的経験のないユーザーにはアイテム種別やキーワード、フィールド、ステミングによる検索を提供し、経験のあるユーザーには近接演算子や論理演算子、ネスティングなどによる検索を提供するなど、利用者のニーズに合わせてポータル機能の選択肢に柔軟性を持たせることを推奨している。同研究では、ユーザーの利便性のために統制用語やシソーラスの使用も薦めている(Medyckyj-Scott et al, 2001)。
検索の際、単純な戦略しか使用しないユーザーは、シンプルで整然としたインターフェースと最大限に簡易化された検索法を求める(Pearce & Martin, 2003)。検索の結果詳細すぎるメタデータが提供されると、混乱を与えたり、当惑させたりする可能性があることを示す証拠が存在する。我々の助言者の一人は、理想の検索サービスとは「多くを捕捉し、少しだけ表示する」、すなわち、リッチなメタデータを検索することにより正確で適切な数の結果を返し、各アイテムについて簡単なメタデータのみをユーザーに示すサービスであると、ユーザーが指摘したことを報告している。
アラート機能はユーザーにとって重要であるが、それが負担になることは望んでいない。すなわち、アラートはメールで送られるより、使用しているポータルに表示されることを好む。また、その頻度と量がコントロールできることを望んでいる。この点でRSSは有効であろう。
ユーザーは検索するだけではない。ブラウズもする。ブラウズの利用は専門分野により異なる。芸術・人文科学や社会科学の研究者は、自然科学の研究者よりブラウズを多用する。発見サービスのユーザーインターフェースを設計する際には、この点を考慮に入れる必要がある。
ユーザーは、特定の目的に合った様々な形態やスタイルでリポジトリから情報を引き出す必要がある。彼らは、目的とする使用法、すなわち、履歴書や求職申込書、助成機関の様式、プロジェクト報告書、Webサイトのエントリなどにより、単純に日付順にソートしたり、日付や文書タイプ、アイテムタイプなどを様々に組み合わせてソートをしたりすることができ、また、追加や削除ができることなどを望むかもしれない。これらはソフトウェアの開発としては比較的簡単な問題であるが、エンドユーザにとって、どうにか役立つものとすごく役立つものとの違いを生じさせるものである。
ユーザーは、1回の簡単な検索で必要とするすべてのものが配信され、関係のない資料や見当外れの資料が含まれていないことを望んでいると述べている。これを技術的に実現するには時間が掛かるだろうから、当面は実用主義で対応せざるを得ない。しかしながら、検索の対象となるコーパスのサイズと範囲に関しては、大きければ大きいほど良いものである。
「デジタル資源やサービスを提供する『ワンストップショッピング』アプローチに関心が集まっていたり、資源横断検索を支援するため共通の常に高品質なメタデータフォーマットの必要性が強調されるなど、メタサーチは…現在のサービスに見られるギャップの中でも上位にランクされるものである。」(Halbert et al, 2005)
(ほとんどすべてのユーザーはGoogleを利用しているにもかかわらず[Swan & Brown, 2005])複数の資源の横断検索は、概念としてはほとんどのエンドユーザにとって新しいものだと思われる(Pearce & Martin, 2005)。ユーザーはどんな種類の資料が自分のニーズに関係しているかを常に知ることができるわけではない。それゆえ、ある話題に関する検索に応答してあらゆる種類のアイテムを返すために複数のリポジトリを横断検索することができる資源発見サービスがエンドユーザには必要である。たとえば、「ファン・ゴッホ」で検索した場合に、雑誌論文だけでなく、学位論文や図書、学習教材や画像なども返すサービスである。各アイテムの種類が何であるかはメタデータが容易に明らかにするはずである。芸術や人文科学、そしてある程度は社会科学でも、図書やモノグラフは雑誌論文よりはるかに重要な研究文献である。したがって、検索により返されるアイテムのほとんどはこれらが占めるだろうし、たとえ、これらのアイテムの中に完全にアクセスができないもの、すなわち、オープンアクセスでなかったり、料金を払わないと利用できないものがあったとしてもそうすべきである。このメッセージの背後に隠れているものは主としてオープンアクセス資料を保有するリポジトリにおける非オープンアクセス資料の問題である。
エンドユーザは研究のために収集する情報について様々な目的を持っており、それは、単純なカレントアウェアネスからデータの共有、データマイニングやテキストマイニング、教育用の再利用などにわたる。情報は、自分のコンピュータのハードディスクだけでなく、仮想研究環境や仮想学習環境、コース管理システムから取り出し、また、収めることができる。将来は、リポジトリと検索サービスがそのようなシステムの構成要素となり、すべての要素が相互にリンクされることが期待される(Awre et al, 2005, Fraser, 2005)。
パーソナル化サービスのメリットに関しては議論のあるところである。e-コマースサービスに関する研究の結果は、パーソナル化は利用率の維持や利用の促進にほとんどの場合成功していないことを示している(Jupitermedia, 2003)。これには、プライバシーの問題が強く関係していると思われ、商業サービスだけでなく学術サービスにおいても事情は同じである(Nielsen, 2003)。Lynchは、ユーザーの個人情報を記録することに対する懸念を和らげるためには、センターシステムではなく、ローカルの機関レベルに情報を保持するべきだと述べている(Lynch, 2001)。プライバシーの問題だけでなく、パーソナル化は「情報世界に対する視野を狭くする危険性」を持っているという問題をPORTALプロジェクトは指摘した。パーソナル化は、ユーザーが既に自ら関係すると判断した資料しか関係資料として提供しないが、これは、「関連する資料を偶然見つけ出す機会を失う」ことを意味する(Dolphin et al, 2002)。
一方、Smith, Schmoller and Ferguson(2004)は、「正しく行われれば」パーソナル化は資料の利用を増加させることができることを示す証拠を多くの分野で示している。(Eduserveにより運営されている)英国における認証・承認・清算システムであるATHENSは、一般に問題なく稼動しており、広くリンクされている。特定の応用においても、ATHENSは極めて有用であることが証明されている。NHSはATHENSのユーザー名を、移動の多い職員のための可搬型識別子として使用しており、これにより、「お気に入りの雑誌」や検索履歴をユーザーは引き継ぐことができる。オープンユニバーシティーは、図書館ポータルにパーソナル化システムを試験的に導入した。この結果、ユーザーはプロファイルの作成に消極的であるが、図書館が代理でカスタマイズをすれば、プロファイルを変更するようになり、さらに、大学が購入していた資料を以前より多く利用するようになることがわかった。
しかし、Smithら(2004)によるこの研究は、パーソナル化という概念的な言葉に対するエンドユーザの関心は、特に、第三者機関がプロファイルの作成に関与すると高くないことも示している。プライバシーの問題は学問の場においても当てはまるが、Smithらは「学術サービスは、ユーザーに対し、営利団体とは若干異なる考えを採用する必要がある。学術サービスではユーザーに関する情報を収集し、再利用する必要があるが、それを明確かつ公然と認め、何が行われているかをユーザーが知ることができるようにするべきである。処理を進める前に、延々と続く小さな文字の承認文に対しユーザーに画面上で「はい」と答えさせるだけでは十分ではないのである」と、述べている。
同著者らは、JISC情報環境は長期的目標としては望ましいものであり、パーソナル化サービスが開発される可能性を提供するものであるが、「現実世界における相互運用性」の問題が解決されない限り、その実装は簡単ではないとも結論付けている。彼らは、LDAPディレクトリサービス——単純な共有サービスを意味している——は、実現することが予想よりはるかに困難であると指摘している。
現実的な観点からすれば、パーソナル化はそれなりの意義があり、ユーザーの経験を拡張するものであるが、同時に、実装や運営をするには高くつくものであり、一般に、オープンアクセス資料だけを対象としている場合は、少なくとも高機能なものを実現する必要はない。しかし、資料へのアクセスを許可制にしなければならない理由がある場合や、情報の流れを効率的に処理したい場合など、それが望ましい状況も存在する。
パーソナル化はアクセスおよび認証サービスと連携するものであり(以下を参照)、図1ではこれに含まれている。
当然であるが、支払いは、エンドユーザの要求の中では高いものではない。しかも、我々はオープンアクセスコンテンツを対象としているのである。しかし、それでも、資料をアクセスするための料金の決済を手配する必要がある場合が存在するだろう。メタデータはオープンアクセスであるが、オブジェクト自体はオープンアクセスではない、たとえば、デジタル画像のように著作権使用料が必要な場合である。ユーザーの観点からは、支払いが必要である場合は、簡単で、合理的で、信頼のおけるものでなければならない。
支払いが必要な場合や、コンテンツへのアクセスの前にリポジトリがユーザーの認証をしなければならない場合は、これらのシステムを実装する方法をサービスは提供しなければならない。料金徴収、会計、報告書作成機能が、個々のリポジトリを対象とするサービスおよびリポジトリ横断サービスの両者で提供されなければならない。同様に、認証が必要な場合は、ユーザーを同定し、そのユーザーに認められているアクセスを許可するサービスが必要である。これが必要となるのは、既に述べたように、ユーザー本人の確認に対する厳しい条件下でのみアクセスができる機密事項を扱うデータや、データの利用方法や利用後のデータの取り扱いに関して厳しい要件があるデータをリポジトリが持つ場合である。この点に関して、既にUKDAが洗練されたサービスを提供しており、将来生じると思われる事例のモデルとして考えることができる。
エンドユーザは、情報を研究に関連した状態で管理することがますます難しくなっていると感じているので、より高度に処理された情報の価値を高く認めている。この種の価値をリポジトリが所有するコンテンツに付加することができる出版社は、新たな成功を享受することができるだろう。オープンアクセス研究リポジトリに関しては、出版社にとって多くのビジネスチャンスが存在する。コンテンツを、新しい方法でアグリゲートしたり、再出版したり、知的情報源として利用したりできるからである。この新たな情報源は、増加しているデータリポジトリのコンテンツと組み合わせることにより、革新的な出版社が情報を発掘し価値を付加し——既存の顧客だけでなく新たな市場となる——様々なユーザーコミュニティに新たな有用で重要な情報製品を提供するための豊富な資源を意味している。本報告書で示す我々のモデルでは、これらの予想される新サービスを、多くの出版社が今後も提供を続けたいと考えている査読サービス(次節で検討される)と共に、「出版サービス」の元に置いている。
オープンアクセスリポジトリにコンテンツを提供する者として、エンドユーザはいくつかの点で支援を必要としている。第1に、彼等はコンテンツを置く場所を必要としている。これは当たり前のように聞こえるかもしれないが、本稿執筆時点で、英国には69のOAリポジトリがあり、そのうち、54は機関あるいは部局リポジトリであり、残りは主題リポジトリや学位論文リポジトリ、電子ジャーナルなどの非機関のリポジトリである9。英国には200以上の大学やカレッジ(成人教育機関は含まない)があるので、これは、共有したいと考えているコンテンツを持つ大部分の研究者や教師は、その資料の保管場所を持っていないことを意味する。この状況は、教育機関が機関リポジトリの価値に気づくようになるにつれ変わってきているが、すべての機関に存在するようになるには今後5年程度かかるだろう。したがって、「ホームレスな」コンテンツのためのリポジトリの提供を計画する必要がある。
本稿執筆の時点において、所属する機関がリポジトリを持っていない研究者の論文を受け入れる全国規模のリポジトリの可能性に関する予備的評価研究がエジンバラ大学とノッティンガム大学のSHERPAプロジェクトにおいて行われている。その意図は、機関が独自のリポジトリを構築したら、その機関の研究者に関するコンテンツを全国リポジトリから機関のリポジトリへ移行するというものである。この計画が実現されれば、価値あるサービスが提供されることになる。想定されているリポジトリは、主に研究論文と関連オブジェクトのためのものであるが、その他の種類のオープンアクセスコンテンツを収める包括的な全国規模のリポジトリを考えることもできる。
我々は、研究者が様々な理由により自身の研究成果をデポジットすることをためらっていることを知っている。中でも、著作権とそれに関連した問題に対する不安である(Swan & Brown, 2005)。彼らは信頼できる指導と、自ら決定できる明確な選択肢を必要としている。個々の機関は、この問題の取り扱いに成功し、権利などの問題に関して著者に請け合い、助言を与える体制が整っているが、その提供は統一されていない。
エンドユーザは、デポジットは1回限りであり、できるだけ簡単に処理できることを望んでいる。1回限りのデポジットの要求に応えるサービスは重要になるだろう。メタデータは結局、複数のリソースやサービスの至るところで繰り返されるかもしれないが、デポジットを高率で行ってもらうための秘策の1つは、著者には実行を1回だけ要求することである。メタデータの作成ガイドラインは著者に歓迎されるが、その変更が頻繁に行われるとエンドユーザは混乱し、やる気をなくすことが報告されている。簡単なメタデータの作成は著者に依頼できる(そして、著者に作成を依頼すべきなのはこれが全てである)。詳細なメタデータが必要な場合は、専門家の介在やデータの自動作成が必要となる。たとえば、RDNは、これを行うために訓練を受けた専門家によるチームを使って目録を作成するプログラムを実施することに成功している。
ファイルフォーマットは多くのデポジット者の悩みのタネである。研究論文をPDFフォーマットで要求しただけでも、大きな困難に遭遇した機関があった。リポジトリ管理者が説明会を開いたり(クイーンズ工科大学)、デポジットする者には任意のフォーマットでの投稿を認め、仲介者が文書を再フォーマットしたり(いくつかのアメリカの大学など)しなければならなかった。
デポジット処理はワークフローの一部とするべきであり、これをできるだけ簡単に行えるようにするために、また、効率を最大にし、著者に喜んで協力してもらえるよう、著者が所属する機関で実行でき、機関のリポジトリに投入されるようにするべきである。また、デポジットは各主題分野において納得のいくものでなければならない。言い換えれば、メタデータに関して特別な要求をする場合は、その分野の概念にできるだけ緊密に適合していなければならない。
デポジットプロセスを最大限簡略にする方法に関して助言し、メタデータの作成を教育し、フォーマット問題を支援し、必要に応じて、保存サービスを提供するサービスは重要である。
著者の相当数は、自分の研究成果の著作権の所在を知らない。JISCのためにRightscomとキー・パースペクティブ社が行った2つの研究は、最高1/4の著者はこれに当てはまることを明らかにした(Sparks, 2005; Swan & Brown, 2005)。出版社との著作権契約はしばしば混乱しており(あるいは不明瞭であり)、同じ出版社でも雑誌により異なる場合もある。その結果、著作権契約を侵害する懸念が著者の心に重くのしかかっており、自発的なセルフアーカイビングを遮る最大の障壁の1つになっている。リポジトリに関連する著作権についての明白であいまいさのない情報を提供するサービスは、この点で重要な役割を持っている。
著者にとって資料の所有権という感覚は極めて明確なものである。当然であるが、著者は研究成果を自身の知的資本だと考えており、オープンアクセス情報源に入っても研究成果は依然として自分に結びついているべきであると切望している(Asensio, 2003)。これは他の面にも拡張される。リポジトリ自身もコンテンツを「ブランド化」したいと望んでいる場合がある。それがマーケティングの理由のみ(かつ、それで十分)の場合もあるが、これを定期的に行う理由がある場合もある。たとえば、UKDAが所有する社会科学のデータの中には、ユーザーを識別するための情報とデータの使用目的を示す情報を必要とする条件の元にデポジットされているものがある。リポジトリ横断型のサービスは、この要求を考慮に入れる必要があるだろう。
リポジトリから利用統計の提供を受けた著者は、これが有益であり、参考になり、さらに論文をデポジットする励みになったことを示している。オープンアクセスとして利用できるという事実から自分の研究成果の視認性が高まっていることを理解したからである。定期的に著者(やユーザー)に利用統計を提供しているリポジトリもある。それが非常に簡単にできることを示す良い例がタスマニア大学のリポジトリである10。JISCは、世界中の相互運用可能なリポジトリを横断する試験的な統計サービスを開発する研究に助成を行っている11が、その他にもオープンアクセスリポジトリの利用データを提供できるサービスが必要になるだろう。
利用データと同じように、著者にとって参考になり、投稿の励みになるのは、研究成果のインパクトに関するデータである。引用分析サービスはこれを効率的に提供することができる。JISCの助成による1つの例が既に運用されている。Citebaseである。現在はいくつかの大規模な主題リポジトリを対象に運用されているが、英国や世界中でかなりの量のオープンアクセス情報源が利用できるようになれば、これは巨大な可能性を持っている12。
学術文献の査読は、伝統的に出版社が管理するプロセスの中で研究者により行われてきた。この大部分は、現在確立している形態で今後も当分の間継続すると思われる。しかし、査読の新しい形態が議論されており、実施されている例もある。たとえば、発表後の論評や発表前の公開査読などを行う実験である。学会出版局の中には、これらの実験に参加するものや、既に投稿ツールとしてリポジトリを利用しているものがある。この場合、著者は、論文をプレプリントとしてデポジットした際に出版社に通知することが奨励される。出版社はこれにより査読プロセスを引き受け、管理し、その後論文を正式に出版することができる。これは、将来、出版社自身がいかにしてリポジトリ横断型のサービスを提供できるかを示す早期の指針となっている。
最後に、ユーザーはオープンアクセスの理由と利点を理解する必要がある。現在の主な問題は、ほとんどのリポジトリにおいて依然としてコンテンツが不足していることである。デポジット率は専門分野(Sparks, 2005; Swan & Brown, 2005)やリポジトリにより異なるが、これは、どのようにしてそれを行うか、何故それを行う必要があるのか、について著者が知らないことに非常に大きく関係している。研究論文の15%しかデポジットされていないと推定されている。デポジットが要求されたり、そうすることの利点をはっきりと理解すれば著者は喜んでデポジットを行うことが証明されている。彼らにそのビジョンを納得させることは、特に、首尾一貫した全国的なビジョンが存在する場合は、そのビジョンを世界中で実現化するために必要な限界量のコンテンツを確保するための大きな一歩となるであろう。この種のアドボカシーの支援を研究コミュニティに提供できるサービスは絶対に必要である。同時に、著者がさらにデポジットをしようと考えるようにするための方法は、著作権やバージョン管理、リポジトリの保管対象、研究成果を発表するためのあらゆる活動に関する助言サービスをリポジトリレベルで提供することであるとリポジトリ管理者は表明している。
本報で述べるモデルは「アグリゲーション(集約)モデル」と名づけられている。アグリゲータの役割は「技術モデルとアーキテクチャ」の節である程度詳しく説明する。アグリゲータの要求は、メタデータの品質に集中しているので、メタデータの品質を向上させるサービスがきわめて重要である。その意味で、データ層の真上に存在するサービス——データマイニングおよびテキストマイニングサービス、メタデータの品質を向上させる目録サービス——はすべて重要である。
メタユーザはいくつかのグループに分けられる。
雇用者や助成者が、その1つである。これらのユーザーは、研究成果に関して2つの目的を持っている。助成を行った研究成果の視認性を最大化し、その影響力を最大にする(お金の有効利用)ことと、研究成果を追跡、分析、操作し、モニタリングや企画立案といった自身の活動の参考にすることである。これらの要求は両者とも、研究成果をOAリポジトリにおいて最大限利用できるようにすることであるが、今のところこれは実現していない。したがって、この種のユーザーの差し迫った要求の1つは、オープンアクセスリポジトリが所有する資料の量を最大限増加させる何らかのメカニズムである。ウェルカム・トラストは、既にオープンアクセスに関する最近の方針によりこの問題に取り組んでいる。これには、被助成者は出版された論文のコピーを主題(生命科学と医学)リポジトリであるPubMed Central(PMC)に置くことを義務付けることを含んでいる13。現在、PMCの独自のサテライトであるPMC Europeを構築するための請負業者を調達中であることは、ウェルカム・トラストがこの問題に対して真剣に取り組んでいることを意味している。さらに別の国にもPMCのサテライトが構築されると聞いている。
自身のオープンアクセスリポジトリをコンテンツで満たすことができない機関は、そうするための支援を求めている。支援を行うことができる1つの方法は、国立の助成機関——研究会議——による義務化要求である。ただし、現在のところ、この問題に関して行動を起こすとは思われない。したがって、機関は独自に行動する必要があり、助言や指導はサービスとして間違いなく歓迎されるだろう。
OAコンテンツがクリティカルマスに達すれば、雇用者や助成者はこのコンテンツを使って、別の要求を満たすことができる。それは、研究成果や研究の進展をモニターし、評価することである。雇用者にとっては、比較研究のためにネットワーク化された全国オープンアクセス情報源へのアクセスが必要となるであろうが、ほとんどこれはローカルの問題である。助成者にとっては、ウェルカム・トラストに続いて特定の主題リポジトリのルートをたどる者を除いて、全国のすべての情報源を対象とし、それを使って現実的な比較分析作業を行う機能を提供する発見サービスが必要となるだろう。したがって、要求されるのは、そのような機能を提供できるサービスである。
研究をモニターする機関や政府、代理店の研究管理者も、オープンアクセス情報源を操作して、有益なデータを取り出すことができるサービスを必要としている。利用統計サービスや引用分析サービスがこの要求に合致する。
最後に、簡単に説明することが難しい異質なユーザーが存在する。これらのユーザーを考える際に最もふさわしい言葉は、「起業家」である。これは技術革新に強い関心を持ち、基礎的な研究成果を応用へと変換し、巨大な付加価値を持つ製品を生み出す人々である。たとえば、技術移転に特化した会社や専門出版社である。これらのユーザーは非常に特殊な要求を持つユーザーであり、中でも、彼等を満足させる専門化した資源発見サービスを求めている。
様々な種類のサービスが、英国リポジトリリンク化ネットワークにおいて役割を果たすだろう。既存のサービスは既にこの枠組みにおいてしかるべき位置を占めているが、新規参入者がサービスを開発する機会も残されている。実行される必要のあるサービス、および、そのサービスを提供するであろう(新旧の)サービス提供者は次のとおりである。
デジタル化サービス: これを行うためのツールを持っていないリポジトリやコンテンツ作成者に代わって、単にデジタル化やXML変換を提供するサービス
提供者: 大学、出版社、その他の商用プロバイダ
メタデータ品質向上サービス: 現在も重要であるが、この種のサービスは年を追うごとに重要さを増すだろう。デポジットされた資料のフルテキストやフルデータセットを調べて、自動的にメタデータを追加する処理が開発されるだろう。これはメタデータの品質を極めて向上させ、セマンティックな検索を可能にするだろう。そのような活動を行っている様々な団体が既に存在するが、技術が向上するにつれ、新たに多くの団体が登場することが予想される。
提供者: RDN、国立テキストマイニングセンター(NaCTeM)、大学、商用プロバイダ
このレベルが対象とするサービスの範囲は非常に大きく、ほとんどの新規サービスはこのレベルに登場するだろう。ここで、そのニーズ——および、ニーズを満たす機会——はこの概要に含めることができないくらい数多く登場するだろうと言っても、それは我々の責任を放棄したわけではない。完全に予想することができないだけである。そうではあるが、登場するが予想されるもの、あるいは、可能性があると思われるものは数多く存在する。以下はそのリストである。
資源発見サービス(主題ポータルを含む): 資源発見サービスは、英国のオープンアクセス資料の全コーパスを対象とした資料を含む結果を返したり、あるいは、ターゲットを絞って特定の主題やオブジェクトタイプの資料群を提供したりすることができる。この分野には既にかなり多くの参加者が存在するが、特定のコミュニティ向けなど、まだ参入の余地は多く残っている。RDNはSHERPAと共同で、「全国的」サーチエンジン(実際は世界中のリポジトリを横断検索する)を開発している。このサービスの存在理由は、既存のOAIサーチエンジンは利用するには特に魅力的ではない(実際あまり使われていない)ことと、サーチエンジンのフロントエンドの「ビュー」、あるいは、少なくとも「雰囲気」が全国的であり、英国の研究者にサービスを使用したいと思わせることである。
提供者: RDN、OAIサーチエンジン、大学、Thomson Scientificなどの商用プロバイダ、CSA、学会、その他の出版社、Scirus、Google、Yahoo!とその類似サービス
著者名典拠・認証サービス: 管理上の理由により同定や認証が必要な場合は、これらを行う方法を提供できるサービスが必要となるだろう。
提供者: Athens、 Shibboleth、CSA、商用プロバイダ
保存サービス: 作成されたコンテンツの保存問題を処理することを常に機関に期待できるわけではなく、また、機関も長期にわたる保存の責任を引き受けたいとは思わないかもしれない。この問題には、第三者の専門家が信頼できる解決策を提供できる。これを既に行っているサービスが存在する。たとえば、AHDSは芸術および人文科学研究会議の助成を受けた研究者を対象にワークショップを開き、ファイルフォーマットやデータの構造化やデポジットの方法について助言し、芸術および人文科学研究コミュニティに長期保管・保存サービスを提供している。信頼できるリポジトリもまた適切なソルーションである。中でも、この役割を果たすべき明らかな候補は国立図書館である。特に、自身のコレクション資料や館内の特別な情報管理技術、情報科学技術を使って商用サービスを独立させた多くの経験を持っているからである。
提供者: AHDS、UKDA、国立図書館、商用プロバイダ、デジタル・キュレーション・センター(DCC)
出版サービス: 査読は、これまで当然と思っていたものとまったく同じ形態で続けるかどうかはともかく、学術研究成果にとって今後も必要であろう。この過程を管理するサービスが必要であり、既存の多くの出版社が主要な役割を果たし続けるものと思われる。既に、著者が投稿を行うツールとしてリポジトリを使用している出版社も存在する。多くの出版社が査読プロセスを管理する上での利点を認めるにつれ、これは間違いなく広がるであろう。新たな出版社もこの分野に登場するだろう。既にこの役割に取り組み始めている大学も存在する。また、たとえ現在は小規模な出版しかしていないとしても、学会は明らかにこの役割を果たすものである。査読に加えて、出版社は様々な方法で価値を付加しており、その価値の多くは、その程度はどうあれOAコーパスにとって今後もふさわしいもの(フォーマッティングやフロントエンドコンテンツ、セット売りなど)である。
提供者: 既存の、あるいは新規の出版社、大学、学会
オーバーレイジャーナル(出版の一部): リポジトリコンテンツを使ったオーバーレイジャーナルを既に開発している出版社も存在する。その例はXXXX(1)である。機関も自身のリポジトリを使ってオーバーレイジャーナルを作成するだろう。たとえば、ルンド大学はLund Virtual Medical Journal16を発行しているが、これは同時に、ルンド大学の著者による医学関係の論文を利用しやすいコレクションとして提供するものであり、この分野におけるルンド大学の研究のショーケースとなっている。また、著者が論文をセルフアーカイブすることを明示的に奨励している(Hultman Ozek, 2005)。この概念は大きな関心が持たれており、成長するものと思われる。
提供者: 既存の、あるいは新規の出版社、大学、学会
橋渡しサービス: 英国のネットワーク化されたコンテンツを使ってビジネスを展開しようと考えている他のサービスに、リポジトリやそのコンテンツに関する情報を提供するサービスは重要性を増すだろう。既にいくつかのサービスが存在する(ROAR、OpenDOAR、IESR)。総括サービスや指示サービス、(リポジトリに関する)カレントアウェアネス、リポジトリコンテンツに関するマッピングサービスなど、その他にも多くのサービス対象が存在する。
提供者: ROAR、OpenDOAR、情報環境サービスレジストリ(IESR)、商用プロバイダ
引用分析・研究評価サービス(メタ分析サービス): これらの取り組みには成長が期待される巨大な領域が存在する。この分野で開発できるものに関して言えば、我々はまだその開始地点にいるに過ぎない。機関や(公的・私的の)研究助成機関による投資成果のモニタリング法に対する要求が高まるにつれ、これらに応える益々洗練された方法が現れるだろう。計量書誌学は有料アクセスの時代においても既に重要な研究分野であったが、オープンアクセス情報源が成長するにつれ、数年後には急成長するだろう。引用分析などの分析手法は依然として幼年期にあり、今後成長するかもしれない新しい指標が既にいくつか予想されているが、テキストマイニングやデータマイニングの手法はこれらの質を大いに高めるだろう。これは間違いなく「引き続き注目すべき」項目である。
提供者: Citebase、Thomson Scientific、その他の商用プロバイダ、大学
利用統計およびフィードバックサービス: 現在、Eprintsの主導で、相互運用可能なリポジトリから利用統計を作成するソフトウェアを開発するプロジェクトがJISCの助成を受けて進行中である17。このプロジェクトは世界規模で行われており、あらゆる場所に存在する相互運用可能なリポジトリを対象としている。英国リポジトリのために統計のサブセットを作成することも可能であろう。リポジトリ管理者や機関、著者自身もこの種のフィードバック情報を望んでおり、これは運用の参考となり、コミュニティにおけるアドボカシーや教育を可能とする。これを提供できるサービスは必要であり、人気のあるものになるだろう。
提供者: 大学、商用プロバイダ
技術移転助言サービス: 本サービスへの移行に成功したプロジェクトも中にはあるが、コンセプトは成功を約束しており、実現可能かつ持続可能なサービスを構築するチャンスがあっても、本サービスへの移行に苦労しているプロジェクトは数多い。ビジネスとしてのサービスを構築することは、多くの場合、一プロジェクトのスタッフの範囲内では期待できないような専門的技能である。この点で、立ち上げサービスをサポートし、ひとり立ちできるまで支援するために、専門家による助言サービスが必要となる。
提供者: JISC、商用プロバイダ
以下にあげるものは、現在はまだ提供されていないがリポジトリサービスが必要とされる可能性のある主要な分野、および、既に存在するサービスでさらに推進する必要のある分野である。
前節では、リポジトリのユーザーとユーザーが必要とするサービスの概要を示し、サービス自体の性質について簡単に説明した。そこで次は、英国のリポジトリをリンク化するネットワークの構成要素とそのサービスの相互関連において発生する問題を取り上げることができる。この節の最後に、ここで従うべき全体モデルを図の形で示したが、その中でリポジトリとそのサービスは一連の階層で示されている。
データ層は、リポジトリ自体を含んでおり、次のように分類される。
第三者により提供されるリポジトリホスティングサービスもこのレベルに含まれる。
データ層を使って実行するものが、リポジトリに必要とされる受入レベルのサービスである。図ではデータ層の下に表示されている。
データ層とアグリゲータ層の間には、メタデータ品質向上サービスがあり、このサービスには、データマイニング、テキストマイニング、目録の各サービスが供給される。アグリゲータ層はリポジトリの技術的リンクが行われる場所であり、技術モデルの節で詳しく説明する。
技術移転サービスは、ポストアグリゲータ層に位置する。
これより上で、リンク化されたリポジトリから集めたデータを利用して行われるサービスを含んでいるのが、出力サービス層である。これは、保存や出版、資源発見、あるいは以前の節で説明したその他の機能を提供するサービスが見られる場所である。
図 A: リポジトリとそれを利用して構築するサービスの全体モデル
今までに我々が提示したものをまとめて示すために、既に示した表を再度以下に示す。この版(表2)では、図Aでリポジトリとサービスを図示するために使用した配色に従って、表を色付けしている。したがって、表においてサービス候補と認定されたサービスの全体の枠組みにおける位置をはっきりと確認することができる。
ユーザー | 要求 | サービス候補 |
---|---|---|
リポジトリ管理者 | リポジトリのビジネスケース | アドボカシー支援サービス |
知的財産権に対する助言 | 著作権、知的財産権、その他関連事項に関するガイドラインを提供し支援する法的助言サービス | |
リポジトリの構築 | リポジトリ構築・保守サービス | |
リポジトリのホスティング | リポジトリホスティングサービス | |
技術的問題 デジタルコンテンツ メタデータ: 構造 統制用語システム ファイルフォーマット 保存 データ公開(OAIなど) 著者名典拠システム | 技術的助言・提供 デジタル化サービス メタデータ作成助言サービス 承認サービス ファイル管理・移行サービス 専門家による保存サービス 技術的助言サービス 著者名典拠サービス | |
アクセスと認証 | アクセスと認証サービス | |
エンドユーザサービスとアドボカシー コンテンツのデポジット コンテンツの利用 | エンドユーザのニーズ分析 アドボカシー助言サービス | |
研究者としてのエンドユーザ | リポジトリ横断検索 主題検索 オブジェクトの種類別検索 個人のニーズに合わせたオーダーメイド 目的に合わせる 支払いシステム アクセスと認証 付加価値コンテンツ |
資源発見システム 資源発見システム 資源発見システム パーソナル化サービス 目的別配布サービス 料金徴収サービス アクセスと認証サービス 出版サービスとオーバーレイジャーナルサービス |
情報提供者としてのエンドユーザ | 査読 デポジットする場所 デポジットのためのペストプラクティスの紹介 1回限りのデポジット ファイルフォーマットなどの技術的問題への助言 権利問題に関する助言 利用データ インパクトデータ コンテンツの「所有権」 オープンアクセスを納得させるビジョン |
査読サービス 機関リポジトリ・国立リポジトリ リポジトリ「マッピング」サービス(図では橋渡しサービスと呼んでいる) 技術的助言サービス(保存など) 権利および知的財産権に関する助言サービス(SHERPA/RoMEOなど) 利用統計サービス 引用分析サービス アドボカシーサービス |
コンテンツアグリゲータ | 優れたメタデータ | メタデータ品質向上サービス 目録サービス テキストマイニングおよびデータマイニングサービス |
メタユーザ(雇用者、助成機関、研究管理者、政府、エコノミストなど) | 利用統計 研究評価およびモニタリング メタ分析 |
利用統計・フィードバックサービス 引用分析サービス データマイニングおよびテキストマイニング |
起業家(リセーラ、技術移転専門家など) | 技術移転仲介者 出版社 |
専門分野別の資源発見サービス 技術移転サービス マッピングおよび橋渡しサービス |
表2 リポジトリサービス候補
この章では、リポジトリサービスを構築する際の役割と責任を検討する。リポジトリサービスの組織的実現性と持続可能性についてはまだ多くの明快なモデルの恩恵を受けていない。リポジトリを持つ機関は、様々な理由によりそれを構築している。その理由は機関により異なる。機関の研究活動や成果を紹介することが最大の理由であった機関もあれば、機関が生産したデジタル成果物の保存がその主な目的であった機関や教育活動の結果できた機関もある。1つの機関に複数のリポジトリが存在する例もある。これらは各々異なる役割を果たしており、機関の内部においてもまったくリンクしていない場合がある。通常、サービスプロバイダがハーベストできる方法でコンテンツを公開していること以外に、機関レベルにおけるサービスはほとんど開発されていない。
ほとんどすべてが最近構築されたこの分散した機関リポジトリと並行して、分野や主題を特定したアーカイブや国立データセンター、特定のテーマに関する資料の大規模なアーカイブ、全国的デポジットライブラリが存在する。これらは通常、組織としてより成熟した規模の大きなリポジトリであり、多くはその対象とする世界における収集と保存を任務としているので、組織化され標準化されたコンテンツを持ち、文書化や手続きを重要視する傾向にある。
リポジトリがオープンアクセスであれば、当然、その利用を最大にしたい、また、リポジトリの可能性を別の方法で示したいという願望が存在する。リポジトリや第三者機関が提供するサービスは利用を増加させ、リポジトリの利点を最大にする助けとなる。そのようなサービスが提供されている例が既に存在する。JISCの願いは、サービスプロバイダと協力して、ベースは何であれ、最も適切で前途有望なサービスを開発することである。
ユーザーのサービスに対する要件については第1章で概略を説明した。この章では、新たなリポジトリサービス基盤において何からの役割を果たすと思われる既存の、あるいは潜在的なサービスを検討する。
通常、研究コミュニティは、主にWebサーチエンジンを通してオープンアクセスコーパスに到達する。OAIサーチエンジンを定期的に使用している研究者の割合は少数に過ぎない。たとえば、OAIsterの場合は3%である(Swan & Brown, 2005)。これは3つの理由により驚くべきことではない。第1に、OAリポジトリが所有するコンテンツの量は未だ非常に限られているからである。コンテンツの量が増加すれば、研究者はもっと利用するようになると推測する。第2に、ほとんどの研究者はそのような検索サービスが存在することを知らないからである。第3に、——たとえば、OAIsterの——機能が非常に限られているからである。しかし、コンテンツの量がサービスの実現にふさわしいものになるにつれ、そのようなサービスの開発が促進されるものと期待される。実際、ユーザーがリポジトリコンテンツの存在に気づいている徴候があり、利用が増加し始めている。しかし、現在の機関リポジトリのユーザーの大多数を対象とする限りは、第2章で報告したように、リポジトリに至る主なルートは明らかにWebサーチエンジンの検索を経由したものである。
ここしばらくは、特に、Webサーチエンジンがよりふさわしい検索結果を利用者に返す方法を開発し続ける限りは、この状況が大きく変わるとは思われない。だからといって、他の種類の発見ツールを使うことで付加的な機能が利用できるとすれば、エンドユーザがこれをまったく使用しないというわけではない。我々は、研究者の98%が「伝統的な」抄録・索引データベースサービスを定期的に利用していることを知っている(Swan & Brown, 2005)。これらのサービスは、研究者が検索結果を操作・分析する方法を提供しており、ユーザーが望めば極めて洗練されたレベルでこれを行うツールを提供し、また機能性が重要であればそのようなツールを提供している。しかし、当分の間、エンドユーザの大部分はWebサーチエンジンを経由してリポジトリコンテンツに到達することが続き、ある——おそらく多くの——場合、この方法により「偶然に」リポジトリコンテンツを発見することになると言った方が、おそらく賢明であろう。
しかし、嗜好性を調べる(例えば、オランダ)と、ユーザーは主題別の入り口へのリンクを選択し、そのようなサービスの提供を求めた。オランダでは、ユーザーが主題ベースのサービスを要求したことにより、いくつかのサービスが大学により提供された。その例として、Connecting Africa(ライデン大学アフリカ研究学科)、Economists Online(ティルブルグ大学が共同提供者)、グローニンゲン大学が開発している環境科学サービスなどが挙げられる。しかし、オーストラリアの経験は注意を呼びかけている。この国のサブジェクトゲートウェイは、ユーザーの人気を得ることはできたが、持続可能なモデルを見つけるのに苦労し、結局、長期的サブジェクトゲートウェイプログラムは終了してしまった。
英国では、Resource Discovery Network(RDN)が、arXivやCogPrintsなどの主題リポジトリが行っているように、この嗜好にある程度対応している。
ユーザーはまた、特別な必要があって、オブジェクト種別(学位論文や動画など)により検索を限定したいと望む場合がある。このようなニーズが明らかであれば、特定の種類のオブジェクトだけを提供する入り口を提供することが妥当である。たとえば、博物館コレクションの画像やサウンドクリップなどを求めて検索をする人にとっては、関心を持つただ一種類のコンテンツのみを対象とする発見サービスの提供が明らかに最高である。これは、ユーザーが検索の際にそのような条件を指定する必要をなくし、検索プロセスを大幅に単純化する。これらのニーズや主題ベースのデータへの入り口を利用したいと考えている人々のニーズを満たす資源発見サービスの提供は望ましいものであると我々は考える。両者ともに存在価値があり、両者、あるいはどちらかを提供するサービスは全国規模のネットワーク化されたリポジトリシステムにおける役割を持っている。
しかし、実際に実行しているユーザーが言っているように、どちらのサービスも「ある主題に関する全て」を見つけたいと思っている人のニーズを満たすことはできない。そのような場合は、おおまかな発見サービスだけで十分であろう。極めて特殊なものからほとんど漠然としたものまでユーザーのニーズは非常に幅広いので、これら3種類のサービスはいずれも成功の余地や可能性がある。
最後に、ユーザーとしての研究者の行動は、資料提供者としての行動とは別物であり、切り離して考えることができることを覚えておくことが重要である。ユーザーの行動を具体的に調べると、自身の主題分野や関心のあるオブジェクト種別を対象とするサービスを使って情報を検索することを好むことがはっきりとしている。資料提供者としての研究者についていえば、自分が所属する機関のリポジトリに真っ先にデポジットすることにはグッドプラクティスとしての、あるいは実用的な理由が存在する。これについての議論は過去に何度も繰り返されているが、最も効率的な方法でリポジトリにコンテンツを満たすことを保証する最良の方法に関係している(Swan et al, 2004)。
我々が強調したいと考える2つの組織上の問題を以下で検討する。
現在はまだオープンアクセスの時代が始まったばかりであり、これに関連する持続可能なサービスは最先端における革新的な作業から生まれている。これは新しい環境であり、あらゆる参加者が自分の居場所を探している。点を結ぶ作業は終盤であり、今はそれに向けて努力すべき時である。しかし、創造的な開発を続けるために必要な条件も依然として残されていなければならない。革新というレベルにおけるそのような条件は、経営書では通常「才能、技術、寛容」であると表現されている。これらはリポジトリサービスを開発する営利企業の間にいずれは広がることが予想される。影響力のある革新的な活動が行われ、リポジトリサービスを生み出すことができる公的部門の機関においては、これは、プロジェクトの助成者は軽快に機能しなければならないことを意味する。すなわち、実験は奨励されるべきであり、ユーザーがどのように反応するかを見るために試しにやってみることができる手軽なサービスが助長されるべきである。計画的で注意深いユーザー要求分析が必要ないといっているのではない。それは重要な役割を持っているが、革新というレベルにおいては常にそうであるわけでないということである。
プロジェクトとして開発が始まったリポジトリサービス分野の中には、既に本サービスとして独立しているものもある。JORUMはその一例である。そのようなサービスのパフォーマンスに影響を与える主要な要因は、それが持つ真の実用的価値とサービスに付随する継続的な革新レベルであり、さらに、それを運営するためのビジネスモデルの持続可能性である。JORUMは実現可能なビジネスモデルを見つけることができたが、これは、今のところこれを実現できたリポジトリサービス分野の数例のうちの1つにすぎない。過去においてサービスに移行し最も成功したプロジェクトは、MIMASやBIDS(現在は、ingesta)などのサービスに発展した大規模デジタルライブラリプロジェクトや、それ自体プロジェクトからサービスに移行した非営利の慈善団体として設立されたEduserveで運営されているアクセス・認証サービス(ATHENS)や共同購入サービス(CHEST)である。このようなサービスにおいて、そのビジョンや個人的献身は疑いもなく継続的成功の重要な要素であるが、財源の再保障、ないしは中期にわたる助成、明確なビジネスケースと妥当な目標がなければ持続することはできない。プロジェクトが困難に遭遇した場合は、2つの要因——プロジェクトの達成目標と継続期間に関するビジョンの明快性の欠如——が、その主な原因となっている。
このようなプロジェクト助成機関にとって、中長期的見通しはたいてい不安なものである。オープンアクセスコーパスのサイズが大規模——出力レベルのサービスプロバイダがサービスを開発できる機会を本当に与えることができるクリティカルマス——になるまでは、システムにつぎ込まれる資金の流れは、必然的に大部分は公的資金による財源から賄われることになるだろう。これら2つの必需品——コンテンツと資金——は、リポジトリの発展を継続的に支えるだろうが、当分の間は、互いが互いを依存することになる。コンテンツ量が既存のビジネスモデルにおけるいわゆる「転換点」に到達すれば、そこで資金繰りのパターンが形成されるだろう。すなわち、資金が別の形で流れ始め、持続可能性はリポジトリサービスが達成すべきはるかに容易な目標になるだろう。これについてはビジネスモデル作成の章でさらに詳しく検討する。
この件に関して重要だと思われるもう1つの問題は、プロジェクトの視認性とそれに伴う「永続的なサービスへの転換を可能とする潜在的な顧客の十分な注目と関与を惹きつける」(Brophy, 2006)能力である。Brophyはその例としてミドルウェアプロジェクトを挙げている。リポジトリサービスの枠組みにおいて、メタデータの作成・品質向上サービスは、同じようにほとんど目に見えないものであるが、モデルの形態と機能にとっては重要である。
別の組織上の問題がデータ層、すなわち、リポジトリ自身から生じている。我々は、この報告書の別の場所でメタデータについて非常に深く検討するので、ここでは詳細に立ち入る必要はないが、もちろん重要でないわけではない。本研究の間に照会を行ったリポジトリサービスの代表はすべて、主要な問題の1つとしてメタデータの形態と品質を指摘した。
しかし、データレベルでは他のことも重要である。リポジトリレベルにおける専門家、特に技術専門家の存在はまちまちである。豊富な専門家を擁し、洗練されたリポジトリを容易に管理できる機関もあれば、ある程度の要求については完全に満足のいく運用ができるが、たとえば、様々なファーマットで作成されたオブジェクトの長期的未来を保証することには苦労する機関もある。さらに、やる気はあるが、人的資源不足のためにできることが厳しく制限されている機関もある。全国的なアプローチを検討している他の国と同じように、英国でもIT専門家を擁しているという意味で最も優れている機関は大規模な研究大学である。小規模な研究大学や「新興」大学はより多くの支援が必要であろう。成人教育部門は、教育・学習教材やその共有に関する多くの分野で先頭に立っていても、技術上野心的な計画を持つ全国リポジトリネットワークの複雑な要求を自前の人的資源で満たすことには苦労するだろう。それゆえ、単独では管理できない機関への支援を提供することが必要になるだろう。そのような支援を提供しているサービスが既にいくつか存在する。たとえば、AHDSは資源をデジタル化する際のファイルフォーマットやメタデータ作成、データのモデル化や構造化などの問題に関して助言と指導を行っている。我々は、このような助言と支援を全国システムの重要な構成要素として提供できるサービスを想定している。
これらの問題は以下に「経験と識見」と題して順に紹介する。
リポジトリサービスの分野で行われた(多くはJISCが助成した)プロジェクトや研究、試験的サービス、本格的サービスは、全国規模のリポジトリネットワークを使った全国サービスの構築に関連して経験や識見という形で多くを明らかにしている。そのうち、本研究に特に関連するものを以下に紹介する。なお、具体的に記述されている場合はその情報源を示した。しかし、多くの事例において、これらの識見は極めて一般的なものであるか、いくつかの情報源に共通するものである。また、その多くは議論の中で我々に伝えられたものであるので、情報源を明確に示すことができない。ここで挙げた情報の中には、網羅性を持たせるために、あるいは、情報の断片が読者にとって有益であるかもしれないので、詳細に示したものもある。各項目は、第1章で示したサービス候補に関連した見出しのもとに分類してある。
オリジナルのデータ資源の段階のコンテンツは標準化されておらず、その対象も極めて分散しているため、多くのプロジェクトは苦労した。機関リポジトリは、1つのコーパスとして、調整も標準化もされていないデータ資源のコレクションを提供している。メタデータはOAI準拠の形で公開されていればハーベストすることが可能であるが、そのデータは多くの場合、フィールドが不足していたり、間違ったデータが入力されていたり、入力ミスがあったりと、満足とは程遠いものである。すでに検討したように、メタデータは(フォーマット、一貫性、存在までも)、いくつかのプロジェクトで取り上げられた重要な問題であり、未だすべてが解決されたわけではない。その理由の1つは、リポジトリ管理者が、このシナリオに登場する他のすべての人と同じように、理想はどうあるべきか、また、どのようにそれを実現するかについて学習を始めたところであるからである。英国のリポジトリは、短期間(数年に過ぎない)の内に大きく発展したが、道のりは依然として遠いということが強調されるべきである。既存の、あるいは過去に行われたプロジェクトは、何が可能かについての知識や理解を作り上げたという点で大きな貢献をしてきたが、グッドプラクティスや技術が一足飛びの道を進み続けるためには、まだやるべきことはたくさん残っている。
技術能力のレベルやこれを機関やHEA主題センターのような専門的サービスを超えて提供するレベルには大きな差が存在する。これらの中には、「ユーザーニーズに応えるために設計した洗練されたシステムを持つものもあれば、スタートしたばかりのものもある」(Franklin, 2005)。技術専門家が得られにくい状況において、OAI検索サービスにメタデータを公開するための敷居の低いソルーションとして静的リポジトリが紹介されている(Dunsire, 2005)。
著者・投稿者のレベルでも、解決すべき問題が存在する。実際、ファイルフォーマットは著者にとって面倒な問題であることが証明されている。多くの著者は依然としてWord文書からPDF文書を作ることができないし、ビデオやオーディオファイルなどに数々の「風変わりな」(Waaijers)フォーマットを利用している者もいる。また、驚くことではないが、リレーショナルデータベースのような複雑なオブジェクトや複数の要素からなるメディアミックスのオブジェクトのデポジットに挑戦することができない者もいる。これは著者と機関双方の問題であり、ありふれたものである(Hey, 2004)。
これに加えて、既に述べたように、リポジトリのコンテンツ量は機関により大きく異なっている。英国の全研究文献に対するカバー率は貧弱なものである。提供できるかもしれない潜在的レベルと比較した学習教材のデポジット率、これまでに国内の博物館コレクションに提供されているメタデータのまばらな性格、および、静止画や動画のような特殊コレクションの目録を取る際に直面する技術的・文化的困難、これらの実際のレベルについては既に述べた。これらすべてが合わさって、満足とは程遠いリポジトリコンテンツの状況となっている。とはいえ、これらの問題を洗い出し、その性質を研究し、これらを扱うベストな方法を見つけるという面で大きな進歩がなされている。
そして、リポジトリのCRIS(Current Research Information System)へのリンクを検討することには何らかの利点が存在するかもしれない。CCLRC18のようにこれを実装している機関もあるが、英国では、CRISは一般的ではない。他の国の中には、全国規模でCRISが浸透している国もあり、今後英国もそうなる可能性がある。CRISを機関研究リポジトリにリンクすることにはいくつか利点がある。本研究に最も関連する利点は、著者による論文のメタデータ(と論文自体)のデポジットが1回だけ(CRISあるいはリポジトリのいずれか)で済むことであり、もう1つの利点は、デポジットされたサイトからハーベストすることによりデータを集めることができることである。
一般に、セルフアーカイビングすることが標準になっている計算機科学や物理学の一部の分野を除いて、著者はセルフアーカイビングなどの技術的応用に不安を感じており、しっかりとした支援を必要としている。
同一のオブジェクトについて2回以上デポジットすることを要求された場合、著者は抵抗するだろう。オランダにおいて、機関が著者に対し、出版された研究成果の詳細について機関のCRISにデポジットし、さらに、DAREnetシステムにもデポジットするよう要求したが、これは実現不可能なことであることが判明した。そこで、デポジットが1回限りになるよう修正された。すなわち、著者は所属する機関のリポジトリにデポジットし、そこからDAREnetと機関のCRISがハーベストするようにした。著者の協力を得るためにはこのようなソルーションが極めて重要である。
オランダのCream of Scienceイニシアティブは、これとは別の前向きな結果を明らかにした。そのうち最も重要なことは、この活動により参加した大学の図書館と教官の間、および図書館と研究者の間の関係が改善されたことである(Feijen & de Kuil, 2005)。
リポジトリに関わるコンテンツの収集から利用に至るあらゆる活動に関して、ユーザーコミュニティに対しもっと多くのアドボカシーが必要であることが広範な情報源から証明されている。ある専門分野において全国的ユーザー支援サービスは支持されないと結論付けた研究もあったが、他の分野では、包括的で組織化されたアドボカシーやユーザー支援に賛成であることが証言されている。
アドボカシーサービスは既にいくつかのプロジェクトで確立されている。たとえば、OAISISサービスはリポジトリの構築を望むスコットランドの機関に助言と指導を行っている19。
著作権と知的財産権の問題はいくつかのプロジェクトで深刻な課題として提起されている。通常、著者はこの件に関して無知であり、その結果、研究成果のデポジットの法的解釈や要求に対し神経質であり、不安を感じている。これは、オープンアクセスリポジトリに限界量のコンテンツを集める上で最大の障壁の1つとなっている。
権利の問題は、他のオブジェクト種別の問題を軽視するものではないものが、学習教材について言及した際に、特に際立っていた。権利の扱いについては、データを管理する機関レベルにとどめる必要があるが、機関で作成された資料が外部に著作権のある資料を含む場合、機関は外部の助言を必要とするだろう。そのような助言は、現在では通常断片的に提供されているが、国家的規模で取り組むための方法を研究したCharlesworthにより、既にいくつかの勧告が出されている(Charlesworth, 2005)。彼が勧める情報や指導を提供する具体的なサービスは、機関がリポジトリをより効率的に管理するための大きな助けとなるだろう。Theses Alive!プロジェクト(Andrew & MacColl, 2002)は、電子学位論文のセルフアーカイビングを推進するための「大きな障害」になっている権利の問題を解決し、JISC Legalサービスを経由して電子学位論文を出版している。同プロジェクトは、学位規則を改訂して電子的な投稿を規定するよう各機関に勧めている。これは、デジタル時代を迎えていなかった時代の伝統的な処理の不明瞭で閉塞的な性格とその潜在的全国サービスに対する影響を警告する一例である。JISCの助成を受けたL2Lプロジェクトは、著作権処理を行うこと、特に公的機関から著作権を得ることがいかに困難であるかを明らかにした(Brosnan, 2005)。このプロジェクトの1つの成果は、JISC Legalにより出版されたe-ラーニング資料の作成者向けに知的財産権の問題を紹介した出版物である(Casey, 2004)。JISCの助成を受けて現在進行中のTrustDRプロジェクトは、学習教材リポジトリにDRM(デジタル権利管理)システムを設定する際の文化的、法的、技術的側面を調査しており、将来、このプロジェクトからさらなる勧告や指針が期待できる。
最後に、高等教育財政審議会(HEFCE)、英国大学協会(Universities UK)、高等教育カレッジ学長会議(SCOP)からなる作業部会は、上級管理者向けのe-ラーニングプログラムにおける知的財産権に関するグッドプラクティス手引書を作成した(HEFCE, 2003)。総じて、現在のところ、e-ラーニングコミュニティには他のコミュニティに比べて権利や知的財産に関する助言的資料がより多く提供されている。
デジタル画像コレクションも諸権利により大きな影響を受けるが、これについてはDigital Imageプロジェクトの報告書で次のようにまとめられている(Pringle, 2005)。「デジタル画像の世界における知的財産権は、過去も現在も混乱した状況にあり、誤解を与える大きな原因となっている。」
JISCの助成を受けたDigital Rights Management研究は、グッドプラクティス手引書と共有ライセンスがリポジトリによるDRMの幅広い採用を向上させることを勧告している(Duncan et al, 2004)。
目録と(必要に応じた)索引付けは複雑な作業である。今後は次第に機械により行うことができるようになるであろうが、現在のソルーションは通常、依然として人間が介在するものである。RDNは熟練のカタロガーからなるチームを使ってJORUMサービスのための目録を作成するというソルーションを開発した。この方法は、この事例にはふさわしいものであったが、大量のコンテンツを持つような他の条件下で必要とされた場合に十分なスケーラビリティがあるとは思われない。
Googleや(既存の、および将来現れる)その類似のサービスは英国の全国的枠組みの要素として考慮する必要がある。既存のサービスもこれを認識しており、これを実現するための作業を行っている。たとえば、RDNはこの可能性を検討しているし、オーストラリアの全国サービスであるADS(ARROW Discovery Service)は、ARROWデータベースを対象に加えるようGoogleに呼びかけている。厄介な問題として——OAIsterがその一例であるが——発見サービスの中には重複エントリを認めないものがある(すなわち、ある文献やメタデータが2箇所以上に存在すると問題が生ずる)。そのようなサービスとリポジトリの仲介処理を全国サービスが行い、個々のリポジトリが独自に調整を行わなくても済むようにするべきである。この仲介機能は全体の枠組みにおいては「技術助言サービス」に含まれる。
ePrints UKは、メタデータ作成の参考とするためにフルテキストを利用する様々な方法を検討した。成功したものもあるが、横断検索を行うための資料のフルテキストを得ることが難しい場合があった。この問題は、英国のネットワークには入っていない信頼できるリポジトリ(PubMed Centralなど)にオリジナル資料がデポジットされている場合にも生じるだろう。
主題記述子はHILTプロジェクトで取り上げられた。HILT Iは、単一のスキームを採用するよりスキーム間のマッピングを行うサービスの方が望ましいということでコミュニティの意見が一致していることを示した(Nicholson et al, 2001)。HILT IIプロジェクトは、JISC情報環境のためのサービスとして1組の試験的用語を作成することによりこれをさらに追求した。(Nicholson et al, 2005)。マッピングアプローチは、複数の言語にわたって機能することができるので、これは英国だけではなく世界中で相互運用性を改良する可能性を持っている。主題記述子やオントロジ、分類、シソーラス、その他の関連システムは、セマンティックWebアプリケーションにおいて重要性を増している。
RDNと高等教育アカデミーは共同でレコードの交換フォーマット(RLLOMAP)を開発した。これはうまく機能しているようだ。RLLOMAPは今後その元となったUK LOM Coreと再統合されると思われる。
芸術・人文科学と自然科学の両分野にわたる学際的研究は、発見サービスに新たな要求をする。すなわち、異なる主題分野別に発見サービスが提供されると、学際的資料は隠されたまま放置されることになる。学際的・総合的研究は増加しており、将来は研究活動の主要な部分となると思われるので、これは重要な問題である。
承認サービスが、ある種のデータ、たとえば、データの使用と廃棄に関してユーザーに同意を求めるデータ(UKDAが保管するデータの一部など)、特定のグループにしか使用を許可していないデータ、保管者が著作権を所有していないデータ(英国地理院のデータが含まれている英国で保管されている地球空間データの大部分など)へのアクセスやライセンス供与に必要となるだろう。
通常、ユーザーはWebページによる通知の方が好ましいことを表明しているが、電子メール通知という形のパーソナル化も、うまく稼動している(すなわち、ユーザーの賛同を得ている)ことが知られている。ARROW Discovery Serviceは、登録したユーザーに電子メールで日次通知するシステムを開発した。その結果、毎日、メールが届いた直後の午前10時頃に利用が急上昇するようになった20。
商用の抄録・索引サービスであるCSA(Cambridge Scientific Abstracts)は、同社のCommunity of Scholarsデータベース21をリポジトリのための著者名典拠システムとして使用することに関心があることを表明した(MacLeod、私信)。CSAのデータベースは英国の著者を完全にカバーしているわけではないので部分的なものに過ぎないが、これは著者名典拠の問題に対する1つの可能性のあるソルーションを示している。会員データベースやデジタルライブラリーを使って著者名典拠サービスを提供することができるので、著者名典拠サービスは、学会がサービスを提供できるもう1つの分野であるかもしれない。
出版社は既にリポジトリと協力したサービスの提供を開始している。米国物理学会はXML生成サービスを提供している(Kelly、私信)。欧州物理学会および英国物理学会出版局は、著者に論文をarXivにデポジットし、それが終わったら出版社に連絡するよう奨励している。これにより、出版社は論文をリポジトリからハーベストして査読を行うことができるからである。別の出版社はリポジトリのコンテンツを使ったオーバーレイジャーナルの開発に着手している。これは、特定の読者の興味に合致した論文を選択し、パッケージ化したものである。
最近、研究データに関していくつかの顕著な動きがあった。これらは疑いなく、コミュニティが研究データを調査、操作、マイニングなどのために利用可能にすることを強力に推進する最高の先駆的試みを示しているだろう。言い換えれば、データのデポジットは今後増加するので、リポジトリはそのための計画が必要である。
以下の表に、英国における適切なリポジトリリンク化計画に必要とされる活動のうち既に行われているものをまとめた。これらの活動は、本報告書で概要を示すリポジトリサービスを支援する役割を果たすと思われる。
サービス候補 | これらの活動を少しでも行っている既存のプロジェクトとサービス |
---|---|
デジタル化 | HEDS(ハートフォードシャー大学デジタル化サービス) |
権利/知的財産権に関する助言 | JISC Legal |
オープンアクセスのアドボカシーに関する助言 | SHERPA; EPrints |
技術的助言 | SHERPAはAHDSなどの適切な資源を紹介している; EPrints |
リポジトリ構築 | EPrints Services; 商用プロバイダ |
ホスティングサービス | EPrints Services; 商用プロバイダ |
機関リポジトリ | 機関; EPrints Services; 商用プロバイダ |
全国規模の「受け皿的」リポジトリ | 予備調査段階にあるPROSPERO |
主題リポジトリ | 機関; コミュニティ |
メディア・オブジェクト別のリポジトリ | 機関; コミュニティ |
メタデータ作成・品質向上 | RDN; 機関 |
技術移転 | |
アクセスと認証 | ATHENS, Shibboleth |
利用統計 | Interoperable Repository Statisticsプロジェクト |
保存 | PRESERVプロジェクト; AHDS; DCC; UKDA; その他 |
研究モニタリング | IRRAプロジェクト |
資源発見 | RDN, RDN/SHERPA UK検索サービスプロジェクト; Thomson Scientific |
オーバーレイジャーナル | 機関; コミュニティ; 学会; 商用プロバイダ |
出版サービス | 機関; コミュニティ; 学会; 商用プロバイダ |
メタ分析 | Citebase |
橋渡しサービス | ROAR; OpenDOAR |
表 3: サービス候補と既存のサービスプロバイダ
既存のサービスが行われていない、プロジェクト段階である、あるいは、サポートの増加により利益が得られると思われるサービスの中には、優先すべきであると認識されている多くのサービスが存在する。これらについては既に十分議論されているので、ここで注釈付きで示すことができる。我々はそのうち4つを最優先サービスとした。
その他の優先すべきサービス・活動は以下の通りである。
リポジトリサービスの構築を追求している包括的なプロジェクトは多くの課題に直面するだろう。提供の際に生じる避けられない運用上の問題も存在するだろうが、主要な課題は、そのような野心的なプログラムを調整・管理するという問題である。言い換えれば、我々は主要な問題を管理プロセスと責任の問題であると考えている。これらは以下のように分類できる。
コンテンツの蓄積は、JISCが慎重に検討すべき問題である。リポジトリを満たすことに成功している機関も存在するが、多くの機関は著者から論文を集めることに失敗している。
JISCが助成をしたFocus on Access to Institutional Resources(FAIR)プログラム23は、2002年から2005年にかけて実施され、機関資産の管理とアクセスの両者を研究した。このプログラムは様々な問題を英国において初めて取り上げたものであり、問題への解答とほとんど同じくらい多くの問題を提供した。これらの問題は重要な問題であり、その多くは、現在、JISC Digital Repositories Programme24で取り組まれている。これら2つのプログラムは共に、リポジトリの利用に対する高等・成人教育コミュニティのニーズや要求を取り上げている。これまでの経験において、どちらかに重点が置かれていたといえば、それは管理の方であり、デジタルコンテンツやそのメタデータの保管に関する多くの知見を生み出している。もう一方のアクセスに関しては、メタデータとコンテンツの相互作用を容易にしているこれまでの経験はあるが、あまり開発が進んでいない。本研究の目的は、このバランスを矯正し、利用可能なデジタルコンテンツを完全に共有・利用するために、リポジトリとその保有物との相互作用を容易にするサービスの提供に潜む問題を探ることであった。
本章では、この共有を実現するために必要な技術的アーキテクチャとインフラにターゲットを絞る。また、その多くがリポジトリ環境やリポジトリそれ自体を基本としている、既に提案されている潜在的サービスを実現するための要因にターゲットを絞る。リポジトリが所有するコンテンツとメタデータの構造とそれらが利用できるか否かは、サービスを通じて提供可能なものに影響を及ぼす。また、サービスで利用するためには、これらがどのような形で公開されるかも重要である。さらに、個々のリポジトリを超えて考えると、複数のリポジトリを統合することができるアーキテクチャや様々なリポジトリ間の関係が、リポジトリ横断型のサービスを稼動させる方法に影響を与える。
これらの要因は、本予備的評価研究25の入札招請書に反映されていた。この招請書には、関連するアーキテクチャとインフラに関する議論を構成するための3つの鍵となる問題が記載されていた。
これらの問題に対し、机上調査とリポジトリ活動に参加している様々な人へのインタビューを組み合わせて検討を行った。本研究の成果は、1つはリポジトリ間の相互作用を促進するサービスを開発する基礎となるモデルの提案であり、今1つはコミュニティが検討し、進めるべき一連の勧告である。状況は進化しつづけているので現実的な選択が必要となる。先の研究では必要となる多くの建築ブロックを提供した。しかし、これらをどのように組み立てるかは未解決の問題である。
リポジトリ横断型サービスの開発における問題に取り組む際には、エンドユーザを第1に考え、エンドユーザがどのようにデジタルコンテンツと相互作用し、利用するかについて検討することが重要である。これについては先の章で既に取り上げているが、技術開発を検討する上のエンドユーザーニーズの重要性を強調するために、ここで再度簡単に取り上げるだけの価値がある。
表1から明らかなように、エンドユーザはリポジトリとの相互作用において様々な役割を果たしている。他人が作成した物を読んでいたり、学習や教授、研究のために情報を検索したりしている場合は、読者または検索者と考えることができる。別の場面では、他の人のアクセスのためにリポジトリが保有するコンテンツを生産・作成する著者あるいはコンテンツ提供者となる。また、ある者はリポジトリ管理者となり、技術的実装の背後にある知的財産権やアドボカシー、ビジネスケース、方針などのリポジトリと絡む現実的な問題に対応する。メタデータやコンテンツを修正するための管理作業が必要となると、コンテンツ提供者の役割と重なるかもしれない。一個人が引き受ける場合もあるこれら様々な役割は、同じ関心を持つユーザーグループによって補完される。すなわち、リポジトリが提供するものを収集し、場合によってはこれを改良して、エンドユーザサービスの基礎を構築するアグリゲータや、リポジトリを使って様々な方針の参考となる価値ある管理情報を提供するメタユーザ、リポジトリのコンテンツに付加価値を与え、品質を向上させ、その配信を支援する起業家である。これらすべての役割の実行は、本技術モデルや付録において概略が示されている課題がどのように履行されるかに影響を与えるだろう。
「サービス」という言葉は多くの意味を持つことができる。たとえば、機械レベルの詳細を示すことができるが、この場合「サービス」とは、ソフトウェアコンポーネントが提供する個々の機能の記述である。反対に、エンドユーザが相互作用する機能の全パッケージを示すこともできる。「サービス」という言葉でこの両極端の間にある多くのものを示すことができ、それは、エンドユーザに見えるものもあれば、背後に隠れて見えないものもある。
本研究で検討しているサービスは、エンドユーザにターゲットを絞ったパッケージレベルのサービスである。この節において、サービスとはエンドユーザサービスのことを指す。サービスがある場所で言及されている場合、それは関連する文脈に沿ったサービスのことを指している。たとえば、プレゼンテーション機能を提供するコンポーネンツを説明している場合は、プレゼンテーションサービスについて言及していることになる。「サービス」が一般的な意味で取り上げられている場合は、そのレベルや粒度の全領域について全体として言及していることを意味する。
2004年、JSICが資金を提供した「成人・高等教育におけるe-プリントおよびオープンアクセスジャーナルを配信・管理・アクセスするためのモデル」に関する研究(Swan et al, 2004)では、e-プリントやOAジャーナルのコンテンツをエンドユーザサービスに公開するための3つの可能なモデルを検討した。
集中モデルは、メタデータとコンテンツに対するコントロールを最大にするために考えられた。このモデルは、メタデータやコンテンツのリファクタリングを可能にし、保存を含む様々な機能やエンドユーザサービスを容易にする。情報の即時性は、コンテンツを中央機関に集めるメカニズムに依存する。しかし、このようなモデルを非常に多くの分散したリポジトリに適用し運用するためには莫大な経費かかかるので、このレベルのコントロールはエンドユーザサービスの開発を支援するのと同じくらい阻害する可能性があると評価された。
分散モデルは、リポジトリなどメタデータの提供元に直接即時にアクセスすることに的を絞っているので、常に最新のメタデータを提供できるという利点を持っている。また、メタデータレコードの重複を排除するという利点もある。「その都度」リポジトリを横断検索する際の最大の問題は、メタデータが「そのまま」配信され、これを表示するためのリファクタリングをする機会がないことである。したがって、このアプローチは、リポジトリが提供できるものに完全に依存している。また、多くのリポジトリを同時アクセスするこのモデルのスケーラビリティについても大きな懸念が存在した。
収穫モデルはこれらの折衷案を提供した。このモデルは、完全な集中モデルが必要とする大きなコントロールを行使することなく、エンドユーザサービスをより一層支援するためにメタデータのリファクタリングを行えるという集中化の利点を持っている。最後のハーベスト以後にリポジトリが更新されたかもしれないので、収穫モデルでは検索の際に必ずしも最新の結果を提供できるわけではないことについては、許容されるものであった。しかも、定期的にハーベストを行うことにより、この問題は管理可能な程度に抑えることが可能であろう。
報告書は、e-プリントとOAジャーナル資料の配信とアクセスに広く採用するモデルとして収穫モデルを推奨した。さらに、この収穫モデルを支える標準としてOAI-PMHの使用を推奨した。
その際には検討しなかったが、4番目のモデルが、オープンアクセス分野ではないが、いくつかのリポジトリサークルで大きな関心を集めていた。P2P(Peer to Peer)ネットワーキングは、音楽ファイルなどの資料を個人間で交換するために広く利用されてきている。ペンシルバニア州立大学のLionShareプロジェクト27では、教育目的によるP2Pネットワーキングの利用を調査した。英国のSPIREプロジェクト28もこれを取り上げた。P2Pはネットワークのノードを通じてどんなメタデータやコンテンツが配信されるかを制御することが可能であるが、これが実行される速度は不定である。ノード間でバージョンの違いが発生する可能性が高まることになるが、エンドユーザサービスによるプレゼンテーションのためにどの程度のリファクタリングが可能であるかはネットワークの方針に依存するだろう。
P2Pは統制されたオープンアクセスのための興味深い可能性のあるソルーションを提供する。しかし、現時点ではまだ技術が成熟しておらず、比較的複雑であるので、本モデルにおいて幅広く利用することを推奨することはできない。
その後2年経過したが、先の研究で展開された主張に変更はなく、収穫モデルが依然として最善の選択肢であることをあらゆる理由が示している。これは、オープンアクセスを通じて利用可能となるであろう非常に幅広い資料を考慮に入れた場合にも当てはまる。本研究から得られた証拠を加えても、リポジトリ横断型のエンドユーザサービスを支援するモデルとして収穫モデルの使用が推奨される。
しかし、先の報告以降の開発により、収穫モデルを実現する方法や収穫モデルが提供できるものに関する新たな技術的証拠が提供されている。様々な標準や技術を使用する方法についても進歩した。ハーベスティングを行う第一の方法としては、依然としてOAI-PMHの使用が最も保証できるものであるが、代替となるソルーションも自身の可能性を示している。ハーベスティングという言葉は、その方法によりほとんどOAI-PMHの代名詞となっている。OAI-PMHとは別の提供方法の検討から、OAI-PMHなどのアプローチを包含するより広い意味の別の用語が必要であることが示された。様々なリポジトリからメタデータ、あるいはコンテンツ自体を収集し、これをリファクタリング、あるいは「成形」して表示するためには、これを可能にする技術には関係なく、アグリゲーション(集約)を必要とする。したがって、ここで述べる技術モデルをアグリゲーションモデルと名づけた。
このアグリゲーションモデルの開発を裏付けるための文献調査やインタビューの結果は、次の4つの章にまとめて報告書の付録に示した。
この節では、これら4つの章で提示された証拠や情報から導いたモデルの説明に焦点を合わせる。モデルでは、要素の適切な配置や要素間の関係、提案されたモデルの持続可能性に影響を与える技術要因を勘案して、これらの要因を配置している。
SURFのLeo Waaijersは、OAIの価値を考えて「OAIモデルのデータ層は、サービス層にとって不可欠のものである。」29 と述べた。この関係のより深い認識をもたらしたものは、OAIモデルの定式化と実装であったが、この基本的な関係はOAIの実装の外にも適用が可能である。この見解は、アグリゲーションモデルはアグリゲートすべき情報があることから始まっていることを示唆している。この情報——すなわち、コンテンツとそのメタデータ—は、リポジトリ(この語を使用することで意味することのできる様々な種類のリポジトリ)に存在する。
図 1: コンテンツとメタデータを所有するリポジトリ
コンテンツは、その要件や潜在的な利用法にしたがって、単一のメタデータレコード、あるいは、異なる形式の複数のメタデータレコードのいずれかと関連づけることができる。これら複数のメタレコードは、独立に作成することもできるし、ベースとなるメタデータレコードから生成することもできる。このベースメタデータレコードは、メタデータクロスウォークを使うことにより、必要に応じて様々なメタデータプロファイルを生成するのに使用することができるが、ベースメタデータはリッチであればあるほど、様々なニーズに合ったプロファイルを生成する応用範囲が広くなる。たとえば、バージニア大学は、独自のベースメタデータスキーマを使い、これとは異なるメタデータレコードを作成している30。
図 2: コンテンツと関連する複数のメタデータレコード
これらのメタデータは、手作業で作成したり、投稿・編集ワークフローの一部として自動あるいは半自動で作成したりすることができる。投稿は、コンテンツの作成者やその代理人、特定の仲介職員、あるいは最も可能性の高い図書館のカタロガーにより行うことができる。様々な目的のメタデータを作成するには、手作業と自動処理の両者を含む様々なアプローチが必要になるだろう。管理メタデータは機関の他のシステムから入手できるし、記述メタデータはサードパーティ製の情報抽出ツールやテキストマイニングツールを使って抽出できる。メタデータの生成にまつわる問題は決して新しいものではないが、今後の開発のために継続して注意を払う必要がある。
リポジトリができるだけリッチなベースメタデータセットを格納できるようにするツールを普及すること、また、必要に応じて、開発することを勧告する。このツールは、ベースセットから抽出したメタデータの再利用や別利用を容易にするだろう。これらを容易にするクロスウォークや関連ツールの開発に対するさらなる努力も行う価値がある。
図 3: 手作業によらないメタデータの生成方法
メタデータ生成ツールは、コンテンツ提供者としてのユーザーのためのエンドユーザサービスの一例である。このツールはリポジトリの機能としてローカルで持つこともできるし、コンテンツをサードパーティに渡して適切なメタデータを抽出・生成する形を採ることもできるだろう。後者の例としては、SHERPA-DPプロジェクトで検討されているe-プリントレコードの保存メタデータを提供するアプローチやJHOVEサービスを使用した技術メタデータの抽出が挙げられる。このようなサービスはほとんどの場合、個々のリポジトリで利用されると思われるが、大量のメタデータやコンテンツへのアクセスがより多くのサービスを提供するところではリポジトリを超えても役に立つかもしれない。特に、記述メタデータを抽出するためにテキストマイニングツールを使用している場合は有効である。このツールは大量のメタデータ・コンテンツがあるほどうまく働くからである。記述メタデータの生成は特に解決の難しい問題であることがわかっている。
エンドユーザサービスの運用を可能とするベースとなるリッチなメタデータを提供するために、メタデータを自動生成するさらなる方法が必要とされている。関連の技術やツールの研究に早急に取り組むことを勧告する。
通常、メタデータは単純型のコンテンツオブジェクト(個々の画像や文書ファイル)に関連付けられている。学位論文の構成要素(文章、画像、データセットなど)のように、単純型オブジェクトが組み合わさって1つのオブジェクトになっている場合、複合型(compound)オブジェクト、あるいは、複雑型(complex)オブジェクト(構成要素が変化する場合)が作成され31、各単純型オブジェクトのメタデータは複合型オブジェクトのメタデータの一部となる。複合型オブジェクトを構成するコンテンツは同一のリポジトリに存在する場合もあれば、個々の構成要素が異なるリポジトリに保管され、メタデータもそれ自体は別々に保管され、その上で、1つの仮想的なメタデータレコードとしてまとめて保管される場合もある。複数のメタデータレコード自体を複数合成して、複合型メタデータオブジェクトを形成することも可能である。単純型、複合型の両オブジェクトについて、各構成要素を永続的かつ一意に識別できることは、オブジェクトの完全性やすべての部品の正確な評価とエンドユーザサービスへの提供を保証するために不可欠である。また、リポジトリを超えたオブジェクトの識別を容易にするためには、識別子を元にオブジェクトの場所を特定するために使用することができる識別子解決サービスが必要である。理想的には、識別子は場所独立であるべきである。すなわち、リポジトリが現在置かれているドメインと識別子を結びつけるべきではない。これにより、コンテンツやリポジトリの場所が移動したとしても、ある程度、未来が保証される。識別子の解決によりメタデータレコードで参照されているコンテンツが長期にわたって利用可能であることが保証されるからである。
図 4: メタデータとコンテンツの関係を明らかにする識別子の利用
その利点を十分理解して使用させるために、識別子、特に配置場所とは独立な識別子へのさらなる注目と、それに必要な解決システムを勧告する。中でも、エンドユーザサービスが付加価値サービスを提供するために識別子を利用する可能性を調査するべきである。
一旦生成すれば、リッチなベースメタデータレコードとこれから作成した関連レコードをリポジトリの内部管理や外部からのアクセスに使用することができる。前者は主に内部的な目的に使用されることになる。この内部レコードが、外部に公開され、利用されるものと同一である必要はない。ベースレコードから作成した様々なメタデータを使用できるからである。このように内部的役割と外部的役割を分離することにより、リポジトリは、内部向けのデータ管理と外部向けのアクセス管理を区別することが可能になり、エンドユーザサービスにコンテンツを提供する方法に柔軟性を持つことになる。
図 5: リポジトリにおける内部および外部メタデータ層
これを行うで得られる利益は、できるだけリッチなメタデータレコードを作成することで得られる利益を増強する。また、リポジトリが内部目的に必要なメタデータと外部目的に必要なメタデータを用意することを可能にし、両者のニーズが衝突する危険性を減少させる。これは、必要とあればベースメタデータレコードをそのまま公開することを妨げるものではないが、公開されるレコードが内部メタデータレコードだけである必要はないのである。
外部メタデータが提供される方法は様々である。リポジトリは、(1)メタデータレコードを様々なフォーマット(たとえば、ダブリン・コアレコードやMODSレコード、管理メタデータフォーマットや技術メタデータフォーマットなど)で公開することができ、(2)これらを組み合わせてパッケージとして公開し、他のシステムで利用できるようにすることもできる。複合型メタデータオブジェクトを作成することができるMETSパッケージング標準32をこの目的のために利用することができる。リポジトリは、自身が公開するメタデータを他のシステム(エンドユーザサービスなど)がどのように利用したいと考えているか知らないだろう。選択肢の組み合わせを提供すると同時にリッチなデータを提供すれば、柔軟性を与えることになる。METSはこれを可能にする。CORDRAモデル(4.4.2節を参照)は、できるだけリッチなメタデータセットを提供するための基礎となる。このモデルはメタデータセットのリッチさを、リポジトリを超えた情報連鎖の中でできるだけ遠くまで維持することを追求しているが、一方で、このリッチさを利用する方法に柔軟性を与えている。これとは別に、複数のメタデータレコードを提供するという特別なニーズが存在するだろう。その一例として、ウェールズ大学アベリストウィス校のRepository Bridgeプロジェクト33では、ウェールズ国立図書館で使用するために、METSパッケージを公開しているが、これには学位論文に関する2つの異なるメタデータレコードが含まれている。MODSレコードが国立図書館における管理と保存用として含まれており、一方、限定子付きダブリン・コアレコードが、計画中の電子学位論文エンドユーザサービスの一環としてEThOSプロジェクト34が引き続き国立図書館から取り込むために含まれている。
図 6: 外部メタデータの選択肢
様々なメタデータレコードの公開のためのさらなるユースケースを開発し、リポジトリが実現するために最良かつ最も成功が見込まれる選択肢をテストして評価することを勧告する。
他のシステムが利用できるようにリポジトリがデータを公開する方法を検討する際には、その対象となるのはほとんどメタデータの公開であった。英国の全国e-プリントおよびOAジャーナル配信サービスのための収穫モデルの勧告(Swan, 2004)や1999年の開始以来蓄積されたOAI-PMHの経験から示されるように、ハーベスティングによるメタデータの公開メカニズムは今では十分理解されている。ロスアラモス国立研究所(LANL)のVan de Sompel等の研究やバージニア工科大学の一連のプロジェクトは、OAI-PMHを使った一連のハーベスティングによりメタデータだけでなくコンテンツも同時に公開する可能性を切り開いた。しかし、コンテンツを一緒にパッケージ化して、リポジトリから他のシステムへ移動させることそれ自体は新しいものではない。複合型オブジェクトの公開は、コンテンツを関連のメタデータと組み合わせるものであり、リポジトリがコンテンツとメタデータを他のシステムに利用できるようにする方法を決定する際に検討すべきさらなる選択肢を提供する。
図 7: メタデータとコンテンツの組み合わせを含む外部メタデータの選択肢
このパッケージングを容易にするための標準は数多く存在する。MPEG-21 DIDL35とIMS CP36は、コンテンツを「値埋め込みで(by-value)」含める(すなわち、コンテンツをパッケージ自体に含める)ことも、「参照埋め込みで(by-reference)」含める(すなわち、どこか別の場所にあるコンテンツへのリンクを持つ)ことも可能である。IMS CPは、ZIPフォーマットであり、主に、リポジトリとe-ラーニングシステムの間でコンテンツの転送を容易するために設計された。しかし、その利用を学習教材に限定しなければならない理由はない。コンテンツはマニュフェストファイルと結び付けられている。このファイルは、コンテンツがどんなものであり、構成する各パーツがどのような関係にあるかを定義するものであり、これによりシステムでしかるべきコンテンツを利用することができるようになっている。LANLで使用されているMPEG-21 DIDLは、XMLフォーマットであり、マルチメディア資料、特にビデオ資料の転送と利用を容易にするために設計された。しかし、他の多くの資料でも同様に利用することができる。これはMPEG-21 ISO標準の一部であり、コンテンツファイルをXMLに納めるためにBase64エンコーディングを使用している。ネットワークの帯域が広くなるにつれ、コンテンツを移動させ、アグリゲートすることがより実現可能になってきた。パッケージング標準はこれを可能にするメカニズムを提供する。
このように可能性はあるが、パッケージング標準を使ってコンテンツをどのようにパッケージ化するべきか、何故この方法を採用するべきなのかなど、この方法について理解すべきことは数多く残されている。MPEG-21 DIDLとIMS CPは両者とも、このプロセスのガイドとして利用できる抽象化文書モデルを持っているが、これらのモデルを様々なコンテンツ種別、中でも複合型オブジェクトに適用する方法についての検討はまだ結論がでていない。
単純型オブジェクトと複合型オブジェクトの両者を含む様々なコンテンツ種別の利用をMPEG-21 DIDLとIMS CPを使ってモデル化し、メタデータとコンテンツの(値埋め込みと参照埋め込みでの)同時公開を基礎とする付加価値エンドユーザサービスの提供に対するこれらの標準の可能性に関する情報を収集することを勧告する。これと並行して、コンテンツの公開をエンドユーザサービスの観点から調査し、どうしたらエンドユーザサービスはパッケージが提供するものを最もうまく利用できるかを調査することを勧告する。これは、コンテンツを公開するユースケースの検証を支援し、そのような公開の実現可能かつ持続可能な実装に対して情報を提供する。
既に示したように、両標準は共に、コンテンツを「参照埋め込みで」、すなわち、実際のコンテンツをパッケージに含める代わりに、コンテンツの存在場所を参照することにより、パッケージ化することができる。この点において、両標準は、上で述べたMETSと同じことを行うことができる。複合型メタデータオブジェクトを公開するメカニズムとして、これら3つのパッケージング標準はすべて実現可能である。ただし、METSは抽象化文書モデルを持っていないので、MPEG-21 DIDLやIMS CPが持つ構造化能力を提供しない。抽象化モデルが提供する構造化能力は、エンドユーザサービスが利用できるコンテンツに関する情報を含むよりリッチなパッケージを作成する潜在能力を提供する(例えば、VLEシステムがIMS CPパッケージを使用するように)。METSは含んでいるものを提供するだけである。構造化を利用する利点は、ユースケースや要件によるだろう。構造化の程度が低いMETSは、より高度に構造化された標準を使用する必要のない要件には合うかもしれない。適当な標準を決める前に、具体的な要件を評価する必要があるだろう。本報告で提案するアグリゲーションモデルでは、これら3つの標準はすべて有効な選択肢となっている。
リポジトリがメタデータとコンテンツを生成・公開する方法に関する選択肢を検討したので、次は、メタデータとコンテンツのアグリゲーションを可能にするために必要なインターフェースの検討である。これには、インターフェースのサポートに利用できる標準や技術の検討を含んでいる。
OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)の第2版は2002年にリリースされた(Lagoze, 2003)。この版は、今日では、ハーベストのためにメタデータを公開する大多数のオープンアクセスリポジトリが使用する標準として確立されている。OAIモデルにはデータプロバイダとサービスプロバイダという概念が存在し、後者は前者からハーベストを行う。プロトコルではハーベスト用として少なくともダブリンコアメタデータの使用を義務付けているが、同時に、プロトコル仕様書とその実装指針では、別のメタデータフォーマットを使用する可能性にも言及している。ただし、ハーベストされるメタデータはすべてXMLでなければならない。今のところ、特別な要件が存在する場合を除いて、ダブリンコア以外のメタデータフォーマットで広く使用されているものは存在しないようである。これはおそらく、OAIサービスプロバイダの注目がダブリンコアに集中しており、そのため、リポジトリはそれに倣うことが当然になっている、すなわち、ニワトリと卵の状況になっているためであろう。OAI準拠のリポジトリに広く実装されているとは思われないが、このプロトコルには他に数多くの機能が存在する。これらについてはこの後で説明する。多くの標準と同じように、付加的な機能の実装には複雑性の増加が伴うが、同時に、メタデータやコンテンツの下流へのアクセスを向上させるという付加的な利益も存在する。
OAI-PMHはプル型のメカニズムである。リポジトリはプロトコルの要件に従ってメタデータを公開し、サービスプロバイダはこれをハーベストすることができる。OAI-PMHは6つのリクエストコマンド(verb)を提供しており、これを使って、ハーベストに何が利用できるかを知り、実際にハーベストを行うことができる。
したがって、適切に設定することにより、OAI-PMHハーベスタは、まず何がハーベストに利用できるかを知り、続いて、必要に応じて要求したレコードをハーベストすることができる。これにより、この例ではアグリゲータの役割を果たすハーベスタであるOAIサービスプロバイダ側にメタデータのコピーを作成することになる。アグリゲータはこのコピーを更新するために必要に応じてこのプロセスを繰り返すことができ、それにより、アグリゲーションに基づいて構築されたエンドユーザサービスは最新のコンテンツにアクセスすることができる。このハーベスティングプロセスにより数多くのリポジトリからメタデータをハーベストし、その結果を1つのコレクションにアグリゲートすることができる。
図 8: OAI-PMHを使ったハーベスティング
OAIコンテナ
Identifyリクエストがリポジトリに要求された際、リポジトリはハーベスタを支援する追加情報をまとめて提供することができる。これらの情報は以下の通りである。
メタデータレコードレベルのコンテナには、リポジトリが使用しているメタデータフォーマットに関する情報を含めることも可能である。実装されていればレコードレベルの来歴(provenance)コンテナには、レコードがハーベストされた際の履歴に関する情報を含めることができる。
OAI 選択的ハーベスティング
このプロトコルは、公開されているメタデータレコードをすべてハーベストするのではなく、選択的にハーベストを行うためのメカニズムを3つ提供している。
OAIコンテナ、セット、および選択的ハーベスティングにおける様々なメタデータフォーマットの使用の研究を、その利用を容易にするためのツールの研究と共に行うことを勧告する。このハーベスティングプロセスへの注目により、ハーベストしたメタデータを基礎とするエンドユーザサービスの開発において大きな付加価値を提供することができる。
OAI 静的リポジトリ
OAI-PMHプロトコルを完全に実装する力を持たない場合、リポジトリはそれに固執する必要はない。姉妹規格であるOAI静的リポジトリ仕様37は、OAI-PMHの仕様を完全に満たすリポジトリを構築することができない小規模なメタデータコレクション(1-5000レコード)のための代替物を提供している。静的リポジトリは、静的リポジトリゲートウェイにリンクを張ることにより、メタデータをゲートウェイに公開する。一方、ゲートウェイはOAI-PMHを使ってハーベストのためにメタデータを公開する。実際上、このプロセスはOAI-PMHを構成するというリポジトリの役割を放棄し、この役割を仲介層(おそらくはサードパーティ)に渡している。
図 9: 静的リポジトリからのハーベスティング
静的リポジトリは、出版社のメタデータを情報環境に公開する英国のSTARGATEプロジェクト38で研究されていることが注目される。OAI-PMHを使用するこの代替手段を高等・成人教育コミュニティにより広く適用するための方法を理解するために、仕様のさらなるテストと併せて、このプロジェクトの結果を評価することを勧告する。
メタデータとコンテンツのハーベスト
メタデータと共にコンテンツを(値埋め込み、あるいは参照埋め込みで)パッケージ化する能力については既に説明した。LANLでは、その後も、OAI-PMHを使って、MPEG-21 DIDLパッケージがハーベストされアグリゲートされている。これは、単なるダブリンコアメタデータ以上のものをハーベストするためにどのようにOAI-PMHを使用することができるかを示す一例であり、また貴重な模範となる事例である。
メタデータとコンテンツの両者を公開しハーベストする可能性を示すために、シンプルダブリンコア以外のメタデータフォーマットによるハーベストをテストすることを勧告する。
RSS39とATOM40は、ニュースアラートや更新情報をリポジトリからユーザーに提供するための配信フォーマットとして、広く知られ利用されるようになっている。リポジトリは定義されたメタデータフィードを提供し、ユーザーはこれを購読しブラウザやデスクトップツールを使ってアクセスする。RSSとATOMは一般にエンドユーザへプッシュされる情報であると理解され提供されているが、これらはリポジトリがメタデータを公開するための代替方法を表している。すなわち、RSSリーダーはリポジトリからメタデータを取り込むことによりアグリゲーションを行う。ハーベスティングプロセスは、具体的に制限されない限り、メタデータはハーベストされることを仮定している。リポジトリはハーベスト可能なものを決めてしまえば、後は受動的役割を果たすだけであり、残りの作業はハーベスタに任せることになる。RSSとATOMは、リポジトリやコンテンツ所有者がもっと積極的な役割を果たし、入手可能な個々のフィードを通じて公開できるものとできないものを明確に規定することを要求する。RSSリーダーやATOMリーダーは受け取りたいフィードを選択し、与えられたものをアグリゲートする。RSSやATOMによるメタデータの公開は、他の場所でのアグリゲーションのためにメタデータを公開する、よりコントロールされた方法であると考えることができる。
図 10: RSSやATOMを使ったメタデータの公開
RSSやATOMの使用において、アグリゲータとして働くのはリーダーである。フィード自体は、セット基準(通常は時間)に従って追加される、メタデータレコードの小アグリゲーションと考えることができる。リーダーは、フィードのコレクションを構築し、これを処理してエンドユーザサービスを通じて表示する。エンドユーザサービスには、表示のために直接フィードにアクセスするWebインターフェースやアプリケーションインターフェースが含まれるだろうが、アグリゲートしたメタデータをさらなる分析や利用のために必要な別のエンドユーザサービスで利用できるようにすることも考えられる。ただし、この目的のために幅広く利用できるツールは不足している。
残念ながら、RSSは単一の標準ではなく、利用可能なRSSにはたくさんのバージョンが存在する。リポジトリ所有者にとって、メタデータの提供を1つのバージョンに固定するか、複数のバージョンを提供するかは選択と必要性の問題である。同じ原則が、RSSフィードだけを提供するか、同時にATOMフィードも提供するかの決定にも適用される。これらの配信規格に加えて、OPMLのようなアウトラインフォーマットが開発されている。OPML(Outline Processor Markup Language)は、RSSリーダー間で交換するRSSフィード自体に関するメタデータ(およびその他多くの種類の情報)をアグリゲートする能力を提供する。これは、もしかするとメタデータをアグリゲートする便利な方法を提供するかもしれないが、OPMLレコードの構造にはいくつかの懸念が存在するので、現時点では本研究で提案するモデルの検討からは外すことにした41。しかし、アウトラインフォーマットは、リポジトリとアグリゲータやエンドユーザサービスの間でメタデータアグリゲーションを交換する将来的に可能性のある便利な方法を提供するものである。
RSS/ATOMとコンテンツ
RSSフィードは、フィード自体は簡潔にし、主要な「リポジトリ」(ほとんどの場合あるWebページへの参照であるが)へリンクバックすることによりエンドユーザを詳細な情報へ接続させるようになっている。しかし、RSSフィードの詳細さのレベルは拡張可能である。RSSはブログで使用されている共通の配信フォーマットであるが、単にヘッドラインやサマリーだけでなくブログ記事全体をRSSフィードに含めることも可能である。長さやフォーマットに制限はあるものの、この点でメタデータとコンテンツの境目はあいまいである。要するに、RSSはリポジトリ側が決定するレベルで情報を供給する能力を提供するものである。
ATOM標準は、RSSに代わるフィード配信機能を提供する。しかし、RSSとは異なり、メタデータだけに限定せずにMPEG-21 DIDLと同じようにBase64エンコーディングを使ってコンテンツを含めることも可能である。したがって、ATOMは配信とパッケージングの両機能を遂行することが可能である。ATOMはMPEG-21 DIDLが提供するほどの構造は提供しないが、実験によれば(配信技術がそうあることを意図したので)実装は容易であることが示されている。さらに、ATOMは、アグリゲーションのためにコンテンツをリポジトリから下流へ移動させるための代替手段を提供し、これをエンドユーザサービスで使用する可能性を提供する。
メタデータとコンテンツを収集する際に使用する標準としてOAI-PMHに加えてRSSとATOMの使用を研究することを勧告する。両者は、特定のコミュニティを対象とするエンドユーザサービスの開発において役立つと思われるリポジトリ資源の対象を絞った公開の可能性を提供する。
Webクローラ
メタデータとコンテンツをオープンアクセスで公開する際にリポジトリが検討しなければならないインターフェースを考える上で、Webクローラの役割を無視することはできない。クローラへの公開は、リポジトリのメタデータとことによるとコンテンツが、他の多くの情報資源と一緒にアグリゲートされ、GoogleやYahoo!といったWebサーチエンジンを通じてエンドユーザに容易に公開される道を開くことになる。これをどうしたら行うことができるかを示す例は既に数多く存在する。グラスゴー大学は、inurl構文を使ってリポジトリをGoogleに公開し、さらに、リポジトリをGoogle Scholarに登録している(Nixon, 2005)。一方、OAIsterはアグリゲートしたコンテンツをYahoo!に公開している42。
図 11: Webクローラによるアグリゲーション
しかし、決定は常に計画的なわけではない。エジンバラ大学は、Googleがエジンバラ大学側の同意や決定もなしに、リポジトリをクロールしていることを発見した。これは有用なものではあるが、公開するものとしないものをどのようにコントロールするかという難題を突きつけている。リポジトリから削除したアイテムが、そのキャッシング機能により依然としてGoogleでは見つかる場合があるからである。OAI-PMHやRSS/ATOMを使うことにより、リポジトリはメタデータやコンテンツの公開方法に関してある程度コントロールすることができる。しかし、Webクローラでは、これが必ずしも明らかではないのである。
リポジトリのメタデータやコンテンツをWebクローラを通じて公開することは、GoogleやYahoo!といった一般的に利用されているWebサーチエンジンを通じてエンドユーザをリポジトリに導く有用な方法を提供する。しかし、そのようなクロールは、必ずしもリポジトリが求めているアグリゲーションや公開のレベルやタイプを導くものではない。既存の公開ルートの評価、およびWebサーチエンジンによる公開がリポジトリに及ぼす影響の評価をするために、Webサーチエンジンによるリポジトリコンテンツの公開を詳細に調査することを勧告する。
これまでは、アグリゲータに対するメタデータやコンテンツの公開をリポジトリの視点から検討してきた。このアグリゲーションプロセスは一方向のパスであることも可能である。しかし、アグリゲーションが一方向だけでは、リポジトリにとっては、アグリゲーションが正確に行われない、あるいは、Webクローラがリポジトリのコンテンツをアグリゲートした場合に考えられるように、アグリゲーションを通すことによりリポジトリの資源が誤って伝えられるというリスクが存在する。また、アグリゲータが、アグリゲートされたメタデータやコンテンツが正しく提供されなかった、あるいはエラーが生じたことをリポジトリに伝えたい場合もあるかもしれない。アグリゲーションを行った結果として情報の損失がないことを保証するためには、技術的な方法であれ、非技術的な方法であれ、アグリゲータとリポジトリが連絡する方法を設定することが必要である。
OAI-PMHハーベスタにとって、これは不可欠な機能である。プロトコル自体エラーを自動的に報告することを許しており、これを解釈して、それに応じた処理を行うことができる。また、コーネル大学のOAI-PMHバリデータは、標準に沿った一連のリクエストとチェックを行うことにより、リポジトリがOAI準拠であることを検証することができる43。しかし、アグリゲータの役割や目的によっては、これらが必要とするすべての情報を提供しない場合もある。また、チェックするのはその構造だけであり、メタデータ自体のエラーや解釈の誤りを発見することはできない。
RSSでは、マイクロソフトのSimple Sharing Extension44などの追加ソフトウェアを使用することにより双方向のコミュニケーションを行うことが可能である。このソフトウェアは、システム(可能性としてはリポジトリとアグリゲータ)が双方で非同期式のコミュニケーションを行うプロトコルとしてRSSを使うことを可能にする。
作成段階でメタデータの自動生成ができることの利点については既に検討した。別の情報源からメタデータを生成することができれば、リポジトリがメタデータやコンテンツを公開する方法に大きな柔軟性を与えることができる、よりリッチなメタデータセットを作成することができる。多くのリポジトリ情報源からメタデータやコンテンツを収集すれば、アグリゲータはこのアグリゲートしたデータを使って同じようにメタデータの生成を行うことも実現可能である。これには、付加的なメタデータの生成や既存のメタデータの品質向上が含まれる。どちらの場合にも、アグリゲータが高度化したメタデータを提供元のリポジトリに戻すことにより、リポジトリのコレクションの品質を高め、所有する情報をさらにリッチにすることができる。これらのアプローチはメタデータの品質向上を対象とするものであり、コンテンツ自体が変更されるとは思われない(もちろん、コンテンツ所有者の事前の同意がなければ不可能である)。しかし、メタデータの品質向上プロセスに情報を与えるためにコンテンツが利用できるかもしれない。
これらの両アプローチが、ePrints UKプロジェクト45で採用された。主題分類メタデータの追加と著者名典拠ファイルを利用した著者名の品質向上を追求するWebサービスと、論文の参考文献に引用された書誌を自動的に分析し、OpenURL標準を使用した構造化された形態に変換するWebサービスが開発された。これらの主題・引用サービスでは、原資料として機能するように、収穫したメタデータレコードで参照されているコンテンツを捕捉しようと努めた。すべてのサービスはベータ版が公開されている。
図 12: 原資料としてアグリゲーションを利用したメタデータの品質向上
このような品質の向上は利益をもたらすことができるが、コンテンツをメタデータレコードからリンクする方法は、主題・引用サービスの開発をする過程で数多くの問題を引き起こした。コンテンツをメタデータと共にパッケージ化する能力を念頭に置き、複合型オブジェクトを利用することにより、より安定した実装が可能となるか否かを検討した上で、品質向上サービスを再検討することが役に立つだろう。
著者名典拠サービスは著者名をチェックするために著者名典拠ファイルの使用を必要とする。英国には現在この種のファイルは存在しないが、各機関が保有する管理用の職員録がその代替物になる可能性があることが示唆されている。サウサンプトン大学ではこのアプローチを使用しており、投稿者名の表記の一貫性を保証するために職員IDデータベースにリポジトリをリンクしている。
メタデータ品質向上サービスを支える代替の情報源として複合型オブジェクトの使用を検討することを勧告する。これには、この処理にとって価値があると思われる適当な機関に関する情報やその他の利用可能な情報のパッケージングを含む。機関が保有する信頼できる著者名リストを分散型の著者名典拠サービスとして利用する研究を行うことを勧告する。
アグリゲーションの目標は、リポジトリとエンドユーザサービスの仲介者として機能することである。リポジトリの役割と、リポジトリがアグリゲータにメタデータとコンテンツを公開する方法については既に検討したので、この節ではアグリゲータとエンドユーザサービスの関係を両者の視点から検討する。
アグリゲーションは、エンドユーザサービスを通じて利用できる多くのメタデータ——と、場合によってはコンテンツ——を提供する。エンドユーザの主なアクセスポイントはWebページを介したものであると思われるが、デスクトップやモバイルのツールやアプリケーションも代替アクセスポイントとなりうることが認識されている。これらのアクセスポイントにエンドユーザを接続するために、アグリゲーションはどのようなインターフェースを提供できるだろうか。
Webクローラは、その主要なインターフェースであるWebサーチエンジンを通じてアグリゲーションを提供する。さらに、これらのWebサーチエンジンは、利用可能な様々なサービスを組み合わせて比較して表示するWebメタサーチエンジンに集約されるかもしれない。有力なアクセスポイントは、アグリゲーションに対するWebインターフェースである。この数年、Web 2.0の出現により、WebクローラなどのWebベースのアグリゲーションは、さらにより柔軟な方法で公開できるようになった。中でも、Google、Amazon、Flickr、eBayは、公開されたコンテンツを使って外部の人がサービスを構築する(たとえば、Google Mapsを使ってサービスを構築する)ことを可能にするAPIを公開している。
RSSフィードやATOMフィード、アグリゲーションは、数多くの代替ルートを通じて読むことができる。これらのリーダーは独立したデスクトップアプリケーションにすることもできるし、Webブラウザを使ったサービスに組み込んだり、機関ポータルや図書館目録のようなWebを使った幅広いエンドユーザサービスの一部として表示されるWebページに組み込んだりすることができる。多くの場合、これらのアクセスポイントは個々のRSSフィードやATOMフィードを対象としており、アグリゲーションのレベルは個々のフィード内に止まる。しかし、アグリゲーションツールは多くのフィードをまとめて取ってくることが可能であり、広範囲にアグリゲートして、様々なリポジトリ資源をまとめて表示することができる。RSSフィードやATOMフィードの「リーダー」への配信は、利用者のインターラクションの主要な形態としてブラウジングの使用を強調している。多くのアグリゲーションにとって、何らかの形で検索できることにも価値がある。
OAI-PMHによるアグリゲーションは、エンドユーザサービスを通じた提供において幅広い可能性を提供する。OAI-PMHにおけるアグリゲーションは、RSSやATOMによるアグリゲーションのような配信フォーマットではないので、エンドユーザサービスは他のインターフェースを介してアグリゲーションと相互作用することが求められる。これらの例の多くを表4に示した。
アクセスポイント | 備考 |
---|---|
Webインターフェース | 索引化されたアグリゲーションに対するWebアクセスを介して利用可能となる検索やブラウズによる直接アクセス。これには、直接的なWebアクセスやWeb上のどこか別の場所にあるサービスにそのようなアクセスを組み込んだものが含まれる。 |
SRW/U | 分散型検索プロトコルを使ったアグリゲーションの構造検索 |
RSS/ATOM | OAI-PMHアグリゲーションそれ自体をRSSフィードやATOMフィードのソースとし、これらの標準を利用できる様々なリーダーを通じて配信できる。 |
OAI-PMH | OAI-PMHアグリゲーションそれ自体をどこか別の場所でさらにアグリゲートするためにハーベストすることができる。 |
OpenURL | アグリゲーションをOpenURLのターゲットとして使用し、各アイテムの所在の特定を容易にすることができる。 |
SOAP | アグリゲーションをより広いWebサービス環境の一部として組み込むことを可能にするWebサービスインターフェース。 |
セマンティックWebインターフェース | サービスを構築する基礎として利用できるコンテンツに関するセマンティック情報を提供するインターフェース。通常、RDFに基づく。 |
表 4: OAI-PMHアグリゲーションをエンドユーザサービスに公開するための選択肢
数多くの様々なエンドユーザサービスにデータを提供する能力を持っているOAI-PMHアグリゲーションの柔軟性は極めて明らかである。これらの多くはテスト済みであり、様々な状況でうまく機能することが知られているが、大部分は幅広く使用されているわけではない。OpenURL、特にNISO Z39.88-2004標準46の利用は、インターフェースとしてはほとんど未開発である。これをリポジトリとアグリゲータの両者で使用する最良の方法を評価することは意義があるだろう。RSSやATOMのアグリゲーションもエンドユーザサービスに取り込むものとして幅広い選択肢を提供しているが、これらのアグリゲーションをリーダーによる単純な表示以上の形で再利用できるようにするツールが登場する可能性もある。
OAI-PMHもRSSやATOMも、それらが得意とする場所でユーザーの獲得を狙うことができる。Webクローラアグリゲーションは、主に、Webサーチエンジンを利用してその時点のアグリゲーションを検索するユーザーを当てにしている。この後者のモデルは、比較的簡単なアクセスを提供するが、アグリゲーションの最大の利点とこれが提供する柔軟性を活用していない。しかし、APIの登場は、柔軟な方法でWebクローラアグリゲーションが提供され、利用できるようになることを約束している。
OAI-PMHハーベスタやリポジトリ全般でのOpenURLの使用、RSSやATOMメタデータフィードを表示以外に再利用できるツールの利用、および、適当なWebサーチエンジンAPIの利用をさらにテストし、エンドユーザサービスを通じたアグリゲーションとの相互作用を容易にするというこれらの価値を確立することを勧告する。
図 13: アグリゲーションをエンドユーザサービスにリンクするための選択肢
エンドユーザサービスの観点からは、アグリゲーションはアクセスの対象となるメタデータとコンテンツの便利なコレクションを提供する。アグリゲーションは様々な種類のリポジトリからの情報資源をひとつにまとめ上げ、エンドユーザサービスがリポジトリと個別に相互作用しなくても、これを第一アクセスポイントとして利用できるようにする。アグリゲーションのほとんどがメタデータである場合は、エンドユーザはメタデータを発見した後、コンテンツの所在を知り、アクセスをしたいと思うだろう。リポジトリが所有するリッチなベースメタデータレコードへのアクセスを可能にすることにより、この付加情報に基づく追加機能を提供することも価値がある。これは、たとえアグリゲーションによる仲介があったとしても、エンドユーザサービスはリポジトリと直接リンクを確立する必要があることを意味している。このリンクができれば、エンドユーザがコンテンツに行き着くことができず、苛立ちを覚えることを防ぐことができる。
図 14: アグリゲーションを介したリポジトリへのアクセス
アグリゲーションや選択したリポジトリへのアクセスがエンドユーザの望むものを提供することを保証するためにエンドユーザサービスが行う価値がある、あるいは必要がある一連の処理が存在する。これらの処理のいくつかを、これらの機能の提供を支援できるサードパーティサービスと共に表5に示した。先の節で検討したメタデータの生成や品質向上サービスもこれに当てはまる。複数の処理を1つのエンドユーザサービスで実行することもできる。だが、エンドユーザサービスの努力が重複することを避けるためにはこれらを分割した方が良い。これらの機能のすべてがエンドユーザサービスとアグリゲーションとのあらゆる相互作用で必要とされることは決してないだろうが、相互作用が正確かつ適正に行われることを保証するために各種の状況で必要になるだろう。
タスク | 関連サービス | 備考 |
---|---|---|
コンテンツのオーサリングと管理 | オーサリングツール、あるいは、データ作成システムの適当なエクスポート機能 | オーサリングや編集は主にリポジトリレベル、またはリポジトリ横断レベルで行われる。 | アノテーションサービス | メタデータへの追加は、リポジトリ、アグリゲータ、エンドユーザの各レベルで行うことができるが、アノテーションはすべて、それがどこに存在しようとオリジナルのオブジェクトと結合されている必要がある。 |
コンテンツの管理と保存 | ファイル管理サービス | アグリゲーションあるいはリポジトリのコンテンツを組織化する機能 | ファイル移行サービス | 管理または保存の目的でコンテンツをあるフォーマットから別のフォーマットに移行するサービス |
認証と承認 | 認証と承認サービス。たとえば、ATHENSやShibboleth | オープンアクセスの世界では、ほとんどの場合これは、最重要問題ではないはずである。しかし、特に、デポジット時や受入段階、コンテンツの検索に制限があるなど、適切な認証・承認機能が必要な場合もあるだろう。 |
アクセス権の評価 | DRMや法律サービス | オープンアクセス環境ではメタデータに関する権利問題が数多く発生するとは考えられないが、コンテンツに関してはサードパーティサービスで承認や管理を行うことになる制限があるかもしれない。 |
アクセスするリポジトリやアグリゲーションの確認 | サービスとコレクションのレジストリ | レジストリはアグリゲーションに関するサービス情報やコレクション情報の目録の役割を果たす。エンドユーザサービスは、これを使って検討中の機能にふさわしいサービスやコレクションを決定することができる。 | リポジトリのレジストリ | 上記の項目の特殊な例であるが、本研究においては特に重要なカテゴリである。アグリゲータがオブジェクトの所在を知るための情報源になると同時に、アグリゲーションを行うための情報源を特定するためにも利用できる。 | 識別子リゾルバ | レジストリは各アグリゲーションの識別子を含むことになる。アグリゲーションにアクセスするにはこれらの識別子を解決する必要がある。 |
検索式の作成 | 用語サービス | おそらくTopic Mapを使って、エンドユーザサービスが検索語を使用している制限語彙にマッピングしたり、共通の単語間でリンクを張ったりすることを可能にする。 | 典拠サービス | エンドユーザサービスが、検索語がアグリゲートされたメタデータに使用されている典拠形に一致することを保証できるようにする。 |
結果・出力を受け取る | フォーマット変換・配信サービス | 検索や所在調査の結果を、必要とするフォーマットに従って出力できるようにする。 |
表 5. エンドユーザサービスとアグリゲーション/リポジトリ間の相互作用を支援する中間的共通基盤サービス
これらの中間的共通基盤サービスのさらなる研究を行うことを勧告する。優先事項は、レジストリ、識別子リゾルバ、メタデータ生成とリポジトリとの相互作用を容易にする適当なオーサリングツールである。
これらのサービスは必要に応じてエンドユーザサービスで利用することができる。これらは、エンドユーザサービスやアグリゲータ、リポジトリの一部である場合や、まったく存在しない場合もあるが、付加価値を与えたり、リポジトリ間の正確で有用なアクセスを可能にする選択肢を提供したりする。
図 15: エンドユーザサービスで利用できる中間サービス
考えられる中間サービスのうち、現在広く利用可能となっているものは極わずかに過ぎないことがわかっている。これは、効率的でフル機能のエンドユーザサービスの開発を妨げる可能性を持っている。しかしながら、その理由の1つとして考えられるのが、これまでは中間サービスとエンドユーザサービスの開発が比較的隔離されていたことであることが示されている。
今後の開発においては、関係する4つの構成要素、すなわち、エンドユーザサービス、アグリゲータ、リポジトリ、中間サービスのすべての間で連携を図ることを勧告する。これにより、相互のニーズをより良く理解することを保証し、そのような相互作用が持つメリットを実際に示すことができ、関連するシステム全体のワークフローを研究することを可能にする。
ここまで、提案するアグリゲーションモデルの構成要素と階層についてはその構成上の位置について言及することなく検討してきた。3つの階層、すなわち、リポジトリ、アグリゲータ、エンドユーザサービスを1つのユニットにすべて含めることも可能であるが、すべて同等に分割され、個別に稼動することも可能である。アグリゲーションモデルでは、通常、アグリゲータはアグリゲーションの対象となるリポジトリとは区別される。その理由は単に、アグリゲータは様々なリポジトリを横断して稼動するからである。含まれる要素に特別な事情がある場合や3つの階層を構築する目的によっては、これに影響を与えることになる。
OAI-PMHをアグリゲータとして考えた場合、階層の占める位置は予定されるエンドユーザサービスの規模に依存する。グラスゴー大学は3つの階層のすべてを学内で運営しているが、ハーベスタとエンドユーザサービスは共にPKPハーベスタソフトウェアを使って提供している。もっと大規模なOAIsterは世界中からハーベストしているリポジトリとは完全に分離されている。OAIsterはデフォルトの設定ではハーベスタとアグリゲートしたメタデータに基づくエンドユーザサービスを兼ねているが、Yahoo!へのメタデータの公開とSRU検索ターゲットの公開という最近の開発ではこれら2つの層の分離を図っている。
図 16: アグリゲーションモデルにおける階層の分離
RSSリーダーとWebクローラによるアグリゲーションの作成は同じアプローチを採用している。RSSフィードはリポジトリにより生成されるが、別個のRSSアグリゲータによりアグリゲートされる。このアグリゲータは通常それ自体でエンドユーザサービスを提供するが、ブローカーとして機能し、アグリゲートしたRSSフィードをそれを利用する別のアプリケーションに提供することもできる。その結果、たとえば、RSSアグリゲータとその結果を提供する機関ポータルが分離されることになる。同様に、Webクローラもアクセスしているリポジトリから独立にアグリゲーションを行い、主に自身でエンドユーザサービスを提供している。これは、JISC情報環境におけるフュージョン層とプレゼンテーション層の結合を表している。
しかし、4.2.3.1節で述べたように、Googleなどのサーチエンジンを含むWeb上の数多くのアグリゲータは、アグリゲータとしての役割とエンドユーザサービスを提供する役割を分離することで付加価値が発生することを認識するようになっている。基本的なサービスであると考えるものをアグリゲータとして直接提供する(これはアグリゲーションの信用を確立する上で重要であった)一方で、GoogleやAmazon、eBayなどは、第三者が独自のエンドユーザサービスを構築できるようにAPIを通じて各自のアグリゲーションを公開している。
このWeb 2.0的アプローチには、本質的に、アグリゲートしたメタデータやコンテンツの再利用を許すことで新たな価値が生まれるという認識がある。OAIsterの開発はこれを反映しており、また、2つの新サービスの開発は、標準(できればオープンな標準)を使用することにより柔軟な方法で互いにリンクすることができる各構成要素を確立するというJISC情報環境の目的を反映している。このアプローチは、e-Frameworkイニシアティブ47の調整から推奨されたように、サービス指向のものであり、ユーザーニーズに合うようにアグリゲーションモデルの様々な構成要素をより柔軟に組み合わせる機会を提供している。
実現可能であれば、リポジトリ、アグリゲータ、エンドユーザサービス、中間サービスの開発は、サービス指向アーキテクチャに移行するべきであり、ユーザーの要求に合ったエンドユーザサービスを構築するための柔軟性を最大にするためにアグリゲーションモデルにおける階層の分離を確立することを勧告する。
理論的モデルを実装に移す際には、通常、現実的な選択が必ず要求される。本研究で行った議論において、アグリゲーションモデルの実際的な実装に影響を及ぼすと思われる、また注意を必要とする数多くの問題が明らかになった。
1. アグリゲーションは、エンドユーザサービスを通じて公開することができるように情報をまとめて収集する連合的なアプローチである。この連合が複数の機関からなる場合、アグリゲーションの効率的な稼動を保証するためにはネットワークの持続性と安定性が必要である。
2. アグリゲーションに利用できるリポジトリ情報源の永続性が、もうひとつの要因である。OAI-PMH準拠のリポジトリの利用を検討したSCRANのGraham Turnbullはその価値は認めたが、一方で、リポジトリは、アグリゲーションやサービスのために適切なメタデータを提供すべきであり、サービスプロバイダが正しいリクエストを作成できるようにするべきであり、クリックすればコンテンツにアクセスができるような永続的な配置場所を持つべきであると主張した。サービスプロバイダがリポジトリを効率的に利用できるように、リポジトリはこれらの要素を実装する必要がある。さらに、ユーザーはサービスが一部でも利用できないことを許さないことをSCRANは発見した。利用者の不満を避けるために、アグリゲーションモデルのあらゆる部品が利用できることを保証するよう注意が必要である。
3. モデルのあらゆる部品の基礎となるソフトウェアは、各部品がどのように接続されるかについて最大の影響を及ぼす。リポジトリに使用するソフトウェアの選択にはそれに関わる多くの要因があるだろうが、一旦選択を行ったら、リポジトリは、結局提供されたものを使用しなければならない。拡張機能の着脱により選択を容易に行えるFedora48のような柔軟なソフトウェアアーキテクチャを採用することも可能であるが、多くのリポジトリは、箱から出してすぐに使えるソフトウェアを必要とするだろう。したがって、アグリゲータとの相互作用を最高に保つために、リポジトリはソフトウェア開発者と継続的にコミュニケーションをとる必要がある。ソフトウェアを実装する際には、「ソフトウェアは何でもできる」というアプローチと「確かに。しかし、コストが機能を制約する」という現実の間で採るべきバランスが存在する。前者については、ソフトウェアはオープンな標準(OAI-PMHやRSSなど)に準拠することであり、この標準を使ってアグリゲータと相互作用することができる限り、何でもすることができる。後者については、現在のところソフトウェアによってはオープンな標準の完全な実装は不可能であり、このことが標準に従うエンドユーザサービスに影響を及ぼすだろうという現実的な見方がある。前者に向けて行えることが多いほど、実際の実装や長期にわたる実装にとってより良いものなる。しかし、常にレガシーの問題が存在するだろうから、古いリポジトリをアグリゲーションに含めることができる方法が存在することが必要である。この方法には、レガシーシステムを変換するための適切なソフトウェア拡張や、システムに外付けして必要とされる相互運用性を提供するOKI DR OSID49のようなサードパーティ製のインターフェースの利用などがある。
4. 情報の粒度も重要であることが示されている。確かに、アクセスの粒度は、コンテンツの粒度、特に識別子の粒度を必要とする。実装すべき粒度のレベルは、可能であれば複数用意される必要がある。アグリゲータが高粒度を利用できなければ、それを提供する側の提供しようとする気持ちはほとんどなくなる。リポジトリが品質の高いメタデータを提供すればするほど、それをアグリゲートしようとする気持ちが強くなる。高度なサービスを実現するために交換されるべきものを合意するためにリポジトリとアグリゲータはコミュニケーションをとる必要が本当にある。識別子は、オブジェクトがどこにあるかに関わらずそれを指し示すものであり、高度に不均一なリポジトリ環境において将来のエンドユーザサービスがいかに開発できるかを示す例を提供している。既存のレコードの上に位置するinfoURI50のような共通スキーマとして識別子を抽象化する能力は、リポジトリを超えた共通属性を提供する一助となるだろう。
本研究で行ったインタビューで得られたアイデアや意見の多くは、特にリポジトリ横断型のサービスを提供する最良の方法を研究するために開発された模範となるアーキテクチャに集約されている。ここでは、aDOReとCORDRAを紹介し、比較を行う。
aDORe(Van de Sompel, 2005)は、標準ベースのモジュラー型リポジトリアーキテクチャであり、米国のロスアラモス国立研究所(LANL)で開発された。aDOReは、LANLにおける様々なリポジトリを管理するための実践から生まれたものであり、不均一なリポジトリからなる相互運用可能な連合の形成に相当する。このアーキテクチャはLANLにおける利用を考慮して構築されているが、各ソフトウェアコンポーネントは複数機関による連合のためのより分散的な基礎も提供している。様々なソフトウェアコンポーネントの第1版が利用可能になっている51。ただし、aDOReはリポジトリソルーションとして提示されているわけではなく、その設計に適用された原理をテストしたり、示したりするために使用するひと組のコンポーネントとして提示されている。
図 17: aDOReリポジトリ連合アーキテクチャ
aDOReアーキテクチャの中核には3つの鍵となる技術的要素が存在する。
アーキテクチャのその他のコンポーネントには次のようなものがある。識別子ロケータ/リゾルバは、DIDLパッケージ内のすべての識別子のレコードを持ち、オブジェクトがリポジトリ連合にあるかどうかの問い合わせに識別子を解決して答えることができる。リポジトリレジストリは、連合内のリポジトリに関する情報を把握している。これらの管理ツールは連合の稼動を監視するものであり、aDOReを複数機関による連合に実装する場合に重要となるだろう。MPEG21-DIDLの利用を容易にするために、LANLチームは、そのようなパッケージの作成、保管、しかるべきOAIサービスプロバイダによるハーベスティングを可能とするツールを開発した。
aDOReアーキテクチャは様々な標準ベースの問い合わせをサポートすると同時に、オブジェクトを配信する際のフォーマットを制御することができるサービスオーバーレイ型動的配信モジュールも持っている。様々なフォーマット間の変換を可能にするために、オブジェクトはRDFで格納する必要があるが、この機能を持つことで、エンドユーザに本当の付加価値を提供することができる。全体として、この方法の持つリポジトリ連合の組織化能力により、時間の経過と共に変化する状況に対応できる柔軟な実装を可能にしている。
aDOReアーキテクチャは、実践的なテストと実験から現れたものであるが、少なくとも1つの機関において実際に稼動している。LANLからリリースされているソフトウェアコンポーネントを使い、機関をまたぐ環境でaDOReアーキテクチャを使用してみる価値があるだろう。そのようなテストは、MPEG-21 DIDLを使用する実験のテストベッドを与えるだけでなく、リポジトリ連合を支援するためにオープンな標準を採用する経験も与えることになるだろう。
CORDRA(Content Object Repository Discovery Registration/Resolution Architecture)51 は、Advanced Distributed Learning Initiative(ADL)53とCorporation for National Research Initiatives(CNRI)54、Learning Systems Architecture Lab(LSAL)55が共同で継続中のイニシアティブである。その目的は、CORDRAのWebサイトの定義によれば、以下を実現することである。
「学習用コンテンツリポジトリの相互運用可能な連合の確立を通して、学習用コンテンツの発見、共有、再利用を目的とするソフトウェアシステムの設計と実装をするためのオープンで標準ベースのモデル」
CORDRAは、現在のリポジトリ環境が不均一なものであることを認識しており、幅広いリポジトリの上で、あるいは横断して稼動することができるソルーションの指針を提供することをめざしている。CORDRAチームやその他で実装システムが開発されている(Jerez 2006, Manepalli 2006)が、CORDRA自体はモデルであり、その詳細の多くは、CORDRAではなく、具体的な実装で対応されることに注意が必要である。
とはいえ、CORDRAはその研究の一部としてレジストリコードを開発しており、オープンソースとしてリリースする予定である。当初は学習用オブジェクトのためのリポジトリからなる連合の構築を支援することを対象としていたが、CORDRAモデルはすべてのリポジトリ部門がシステムを開発するための指針として利用することが可能である。
図 18: CORDRAコミュニティリポジトリ連合
CORDRA内の相互運用性は、主要なレジストリの役割に集中させている。
マスターカタログは、連合内のリポジトリにより公開されたメタデータをアグリゲートする。このアグリゲーションは、FedCORプロジェクト(Manepalli, 2006)のようにOAI-PMHを使ったハーベスティングにより実装することもできるし、プッシュメカニズムにより実装することもできる。ただし、CORDRAは全般的に使用する標準を限定していない。レジストリレベルにおけるアグリゲーションは、エンドユーザサービスによるCORDRAモデルへのアクセスの中心点である。エンドユーザサービスへ向かう連鎖のできるだけ上流にメタデータを移動することにより、CORDRAアグリゲーションは様々なリポジトリからメタデータを一括して収集する際に生じる情報の損失を最小限にすることを追求している。メタデータはアクセスを最大にし、品質低下を避けるためにアグリゲートされる。このメタデータのプーリングも、エンドユーザサービスを構築するための基礎を提供する。
CORDRAの原理は、オープンアクセスリポジトリ横断型のエンドユーザサービスを開発する上で明らかに価値がある。CORDRAのほとんどが理論であるという性質は、これを実現する間に遭遇する具体的な要因を評価することが難しいことを意味する。また、モデルのさらなる開発やテスト実装を待つ間は、実際には、オープンアクセスリポジトリ連合を確立する上で解決すべき要因のチェックリストとしてCORDRAは最もよく利用されるだろう。
関係者が認めているように、aDOReとCORDRAの両活動は、それぞれ異なるルートを通ってほとんど共通のゴールにたどり着いている。両者ともアグリゲーションを通じでできるだけ多くの情報をエンドユーザサービスに提供しようとしている。aDOReは使用する技術と標準に関して旗色を鮮明にしているのに対して、CORDRAは幅広い技術や標準を利用できるより開放型のモデルを提供している。両アーキテクチャともにリポジトリレジストリの使用と、連合内のリポジトリの把握を支援する重要な中間サービスを採用している。広大なオープンアクセス環境においてaDOReやCORDRAを実装する際にこれは不可欠なものになるだろう。
また、両アーキテクチャとも、設計した機能を十全に達成するために連合内に協調性を持ち込んだ。オープンアクセスは、主にOAI-PMHの使用による迅速な公開と配信を奨励することにより、調整が少ないこと、時には存在しないことを好む傾向にある。これまでの経験から、これは問題を引き起こす可能性があることが示されている。また、成功したサービスプロバイダは、アグリゲータとリポジトリの間に何らかの連絡と調整の意識があった場合かサービスプロバイダ自身でアグリゲートした情報を再構成していた場合のいずれかであることが示されている。より多くの調整を行うという意味で、aDOReとCORDRAはオープンアクセスを提供する際に必要な作業を増加させた。しかし、同時にオープンアクセスを拡大するかもしれない付加価値のある対象を絞ったサービスの可能性も提供している。
aDOReコンポーネントはテスト用に利用できるので、これをさらに研究することを勧告する。このようなテストを行い、CORDRAモデルに照らしてaDOReの実装を評価することによりCORDRAイニシアティブに貢献することができるだろう。CORDRAが連合を構築するための本格的な指針であると考えられるようになるには、さらなる作業が必要である。aDOReのテストはその一助となるが、一方で、標準や技術、問題をさらに調査するための現実的で実装可能なソルーションを与えることにもなる。
リポジトリ横断型のエンドユーザサービスを促進するモデル案について検討したが、このモデルが先の章で明らかにした各ユーザーグループのニーズを満たしていることを保証することが重要である。これらのニーズを表6に(表1への言及と共に)示した。
ユーザーグループ | アグリゲーションモデルの利点 |
---|---|
リポジトリ管理者 | アグリゲーションは、管理サービスの保守(状況次第では依然として必要になるかもしれない)や自らエンドユーザサービスを行うことからリポジトリ管理者を開放する。 |
エンドユーザは、リポジトリのフロントエンドを介在することなく、アグリゲータから直接必要な資源にアクセスすることができる。 | |
アグリゲーションは、アグリゲータレベルで品質を向上させたメタデータをアグリゲータからリポジトリにフィードバックすることにより、リポジトリが所有するメタデータの品質を向上させるもう一つのルートを提供する。 | |
アグリゲータは、必要に応じて信頼できる仲介者として認証と承認の問題に対処することができる。 | |
サードパーティサービスによるアグリゲーションは、適切なメタデータの提供やコンテンツの保管により保存を容易にすることができる。 | |
リポジトリは、メタデータは公開するが、コンテンツの制御は保持している(ただし、同時にコンテンツをアグリゲーションのために公開する可能性にも注意)。 | |
読者およびサーチャーとしてのエンドユーザ | アグリゲーションは、多くのリポジトリを対象とする幅広いアクセスを提供するので、エンドユーザは個々のリポジトリにアクセスする必要がなくなる。 |
アグリゲーションは、(RSSの利用などにより)コンテンツへのアクセスを制御しパーソナル化する機能を提供し、エンドユーザがアクセスするソースを自分で決定できるようにする。 | |
アグリゲーションは、特定のエンドユーザーグループ向けに専用のD2Dサービスを開発する可能性を提供する。 | |
コンテンツ提供者としてのエンドユーザ | アグリゲーションは、コンテンツ提供者が研究成果を広く利用できるように公開する機能を提供する。 |
アグリゲーションが提供する主題別入り口など、関連する資料の周辺に公開を絞ることができる。 | |
アグリゲータは、コンテンツの長期保存、長期アクセスを支援するために保存機能やメタデータ品質向上機能を提供することができる。 | |
コンテンツアグリゲータ | アグリゲータは、アグリゲートしたメタデータの品質を向上させ、これを関連するリポジトリにフィードバックするために、自らの付加価値サービスを提供することができる。 |
アグリゲータは、テキストマイニングやデータマイニングなどの分析の基礎としてアグリゲートしたコレクションを利用することもできる。 | |
アグリゲータは、(おそらく、マーケティング要素を含む)エンドユーザサービスによるアクセスを容易にするブローカー的役割を果たすことができる。 | |
メタユーザ | アグリゲータは、データのアクセスとダウンロードに関する統計情報のただひとつのアクセスポイントを提供することができる。 |
アグリゲーションは、個々のリポジトリレベルではリポジトリ管理を支援する比較目的のベンチマークを提供することができる。 | |
起業家 | アグリゲーションは、発見を支援するために研究資料などの資料の複数の情報源へのただひとつのアクセスポイントを提供する。 |
アグリゲーションは、商業サービスの開発のために、付加価値サービスの基礎となるしかるべき資料コレクションを提供する。 |
表 6. エンドユーザにとってのアグリゲーションモデルの利点
リポジトリとエンドユーザサービスはD2D連鎖のどこに位置するのか。OAIsterなどの大規模OAIアグリゲータやGoogleなどのWebクローラを含む多くのエンドユーザサービスは主に発見を提供するあたりに位置する。様々なユーザーグループに正確で適切な発見を提供することは難しい。OAIsterのようなサービスは収穫した資料に対する全体像を提供する。一方、GoogleやYahoo!はクローラが収集するWebコンテンツやリンク先のコンテンツに対して同じことを行う。OAIsterがアグリゲートしたコンテンツは別の方法としてYahoo!からも利用することができる。明確な開始地点を持たずに発見の旅に乗り出す場合は、この包括的な発見ツールは、さらなるインターラクションを導くことができるすばやいフィードバックや結果を提供するので便利である。Webサーチエンジンの利用率は、特にこのアプローチの価値が受け入れられていることを際立たせている。自分が探している物を知っているエンドユーザにさえ、考え抜かれた構造化された発見サービスより好まれる、自由に使えてたいていは迅速な発見サービスをWebサーチエンジンは提供している。これは、サウサンプトン大学における最近の調査で明らかにされており、大学のリポジトリが備える構造化検索サービスを通じたアクセスは11%に過ぎず、残りは別のルート(Webサーチエンジンからの64%を含む)からのものであった56。
Webサーチエンジンの人気は、他の分野のサービスの開発に比べて、新たな発見サービスの開発に注目する必要がほとんどないことを示唆している。これは、大規模アグリゲーションによる包括的発見サービスに特に当てはまる。これがより人気のある確立されたサービスと競争することは難しいからである。しかし、特定のユーザーコミュニティに対象を絞った発見サービスは成功する可能性がある。たとえば、特定の主題へのアクセスを提供するサービスやETDのような重要なコンテンツ種別に対象を絞ったサービスである。また、今のところ、すべてのオープンアクセスリポジトリがWebサーチエンジンを介してアクセスできるわけではないので、これを対象とする何らかの発見サービスが必要であろう。また、図書館目録や書誌データベースなどのより伝統的な情報資源を発見する場面でオープンアクセスリポジトリを検索する利点を検討する必要もある。しかし、いずれの場合も、開発をすべきか否かを明らかにするために、考えられる発見サービスとWebサーチエンジンとの間にどんな関係があるかを十分に検討する必要がある。
アグリゲーションとそれに関連するエンドユーザサービスはD2D連鎖のほかの部分で重要な役割を果たすことができる可能性がある。コンテンツが発見できらたら、次にその所在を知る必要がある。ユニークで永続的な識別子を使うことにより、コンテンツの所在を明確にすることができる。複合型オブジェクトが関係し、オブジェクトの構成要素が分散した場所に存在する場合は特にそうである。OpenURLやCOinS57を使ってオブジェクトの所在を突き止めることは、アグリゲーションに付加価値を与え、発見した結果からコンテンツのある場所にエンドユーザを導くことができる。既に、Google ScholarでOpenURLを利用できるようにするFirefox拡張が存在する。また、COinSは、zetocなどの二次発見ソースに組み込まれている。
所在がわかったら、リクエストをして、該当するオブジェクトをダウンロードにより受け取ることができる。オープンアクセス環境であれば、ほとんどの場合、これを直接直ちに行える方法があることが期待される。ただし、アクセスに制限がある場合は、エンドユーザが行き詰まりにならずリクエストを続けられるような手続きが必要である。たとえば、最近、EPrintsとDSpaceに「コピー依頼」ボタンが追加されたが、これは、リポジトリにILL相当機能を付け加えるものである。この即時的でないリクエスト方法は、希望するコンテンツのダウンロードが容易でない場合や、たとえば、依頼があった場合にのみ利用可能なデータセットや特別な書式による依頼が必要な画像などのダウンロードできない場合に特に必要となるだろう。
配信オプションに関しても検討する必要がある。ブラウザがこのファイルフォーマットに対応するよう設定されていれば、PDFによる配信は簡単だろう。しかし、その他のフォーマットは別の配信メカニズムやサービスを必要とするかもしれない。別のフォーマットによる配信は、D2D連鎖を離れて資料を使用することを想定したツールにより影響を受けるかもしれない。たとえば、書誌管理ソフトウェアにインポートするためにメタデータを出力する場合や、分析ソフトウェアで情報を使用する場合などである。MPEG-21 DIDLやATOMを使って構築されているような、コンテンツを含む複合型オブジェクトの利用は、エンドユーザサービスがその管理方法を知る必要がある代替となる配信フォーマットを提供する。
英国の高等・成人教育コミュニティにおけるリポジトリとアグリゲーション、これらを横断するエンドユーザサービスの開発は、関連する中間サービスと共に、情報環境を構成するすべての要素を包含するものである。エンドユーザサービスの開発はこのエンド・ツー・エンドシ ナリオを生かして実際にテストを行い、D2D連鎖のすべての部分、特にこの後半の段階、すなわち、所在特定、依頼、配信を十分検討することを勧告する。特に、この拡張されたD2D活動を支援するために、OpenURL 1.0標準の潜在的役割を調査することを勧告する。
2005年1月にサウサンプトン大学で開催された機関リポジトリに関するイベントでの発表で、英国図書館のRichard Boulderstoneは情報連鎖について述べ、英国図書館が果たすべき役割を明らかにした(図19の赤色の部分)。
図 19: 情報連鎖(Richard Boulderstone、英国図書館)
英国図書館の役割が、アグリゲーションから始まり発見された情報の利用の前で終わっていることは注目に値する。大規模な組織にとって、おそらくこれは理解可能であろう。英国図書館で発見された情報の利用方法をすべて数え上げることはほとんど不可能であるからである。米国のCORDRAイニシアティブでも同じ立場を採用している。CORDRAは、エンドユーザサービスにふさわしいメタデータを提供するために、そのリンク化されたレジストリシステムを通じてできるだけ内容の豊富なメタデータセットを提供することを目的としている。しかし、それがどのように利用されるかについては一切想定していない。CORDRAモデルが適用可能な多くの分野における潜在的な利用法を正確に知ることはおそらく不可能であると考えるからである。同様に、情報環境アーキテクチャは、提示のみに対象を絞ったプレゼンテーション層を持っているが、今のところ、利用の調査には手を広げていない。
利用の研究がこのような抽象的レベルにおいて取り組み難い分野であることはもっともである。しかし、実際的な小規模な状況において利用の研究を行い、これをうまく応用することは比較的容易である。さらに、情報サービスの広義の目的において、情報を利用可能にする理由は、何らかの方法でそれを利用できるようにすることである。情報やリソースがどのように利用されているかを十分に理解することにより、開発すべきエンドユーザサービスの種類やそれを支えるリポジトリ自体の構造を知ることができ、必要とされる利用に適った場所を提供できる。潜在的な利用に対応するひとつの方法は柔軟性を増すことである。CORDRAは、メタデータを公開する方法において高度な柔軟性を奨励している。aDOReアーキテクチャも同様である。両者ともユーザーの情報への要求をその場で満たすことを追求している。この柔軟性は極めて重要である。なぜなら、ユーザーの要求の変化に迅速に対応できる可能性を高めるからである。しかし、この柔軟性に加えて、情報がどのように利用されるかについてもっと良く理解していれば、さらに強力なツールを提供できる可能性がある。限られた労力をどちらに向けるのかという意味でこれらの間には対立があるかもしれないが、一緒になることで価値を生み出すことができる。情報の連鎖は情報のワークフローを示している。ユーザーのワークフローに完全に一致させるためにワークフローの最後で何が起きているかを正しく理解することは、ユーザーのワークフローのよりスムースな進行に役立つであろう。
この点について、オープンアクセスの研究コンテンツと学習用コンテンツの現状における扱いは明らかに対照的である。学習・教育の環境では、発見した資料の再利用はほとんど当然だと考えられている。学習用資料を検索・発見する目的は、見つけた資料を利用することである。この利用に関する考え方は、学習・教育分野の発見システムに影響を与えている。たとえば、全国的な学習用オブジェクトのリポジトリであるJORUMは、発見サービスに対する付加価値サービスとして再利用のテストを行う機能を持っている。利用や再利用の詳細については常に明らかであるわけではないが、将来の利用を正しく理解することは、エンドユーザサービスやそれに対する付加価値サービスの開発に影響を与えている。
サービスの開発のための情報を提供するために、また、サービスを通じて公開されている基礎となるリポジトリにフィードバックをするために、エンドユーザサービスの開発にはサービスを通じて表面化する情報の利用法に関する調査を含めることを勧告する。
リポジトリ横断型のエンドユーザサービスの開発を進めるに当たって、これらのサービスが技術的に長期にわたって持続できる可能性を最大にする要因は数多く考えられる。リポジトリ・アグリゲータ・エンドユーザからなる連鎖の構成要素を実装する際の現実的な問題については既に取り上げた。この節では、将来を見越して、エンドユーザサービスを長期にわたって稼動させる上で影響を与えると思われる問題について考える。
いろいろな意味で「長期」という言葉と「技術的」という言葉は両立しないということは正しい。なぜなら、技術の変化は突如として起こるものであり、今後数年の間にこれまでにない革新的な技術が登場するのではないかと考えるのは当然である。技術的な持続可能性には、費用対効果や非技術的要因からの影響も関係する。最近行われた機関のユーザサービスに関するDFL Aquifer Study(Halbert, 2005)では、新しいエンドユーザサービスが開発されない主な要因が、単なる時間不足であったことが明らかになった。
そうではあるが、このモデルでは、必要に応じて様々な基礎的技術を使って適用することができるアプローチの検討を試みた。このモデルは、既に登場から5年を経過し時の試練によく耐えた情報環境技術アーキテクチャから数多くの要素を採用している。また、サービス指向アプローチを採用し、できるだけオープンな標準を使用するなど、登場しつつあるe-フレームワークに沿うものでもある。そうではあるが、リポジトリを考える上で、Webサーチエンジンが、発見の支援において主要な役割を果たしており、今後も果たすと思われること、リポジトリからWebクローラが収穫したアグリゲーションを基にエンドユーザサービスとしての役割を果たし続けることを記憶しておくことが重要である。
情報環境技術アーキテクチャが時の試練に耐えたのは、最初にそれを着想した際の構成要素が現在でも存在するからである。アーキテクチャが初めて登場して以来、OAI-PMHなどの奨励されたオープンな標準の多くは成熟し、各構成要素はエンドユーザサービスの構築において今でも確実に通用する。本研究は、これを実現するために必要な標準にはギャップはないが、各標準が正確に、あるいはできるだけ広範囲に解釈あるいは実装されていないことにはギャップが存在することを確認した。各構成要素をもっと対象を絞り実用的に実装すれば、価値の高いエンドユーザサービスを作り出すことができるだろう。将来、基礎となるリポジトリシステム自体が変更したとしても、オープンな標準によるインターフェースを今後も順守することで持続可能性は維持されるだろう。
成功に満足しないことが重要であると言われている。標準は、時間の経過と共にニーズの変化に合わせて変更してきた。注目すべき機能の限界に標準が直面していないか監視を続ける必要がある。これには、メタデータ標準の分野が特に該当する。既存の標準は、その起源が書誌的・物理的記入であることにあまりにも大きく依存していると思われるからである。これらは重要であるが、これらをボーンデジタルな(単純型および複合型)オブジェクトのためのメタデータ標準と共に包摂し、デジタルコンテンツにも完全に利用できる方法を見つけることが早急に必要である。また、複数のメタデータ標準が共存しているドメイン間の相互運用性の問題も存在する。これらがどう相互作用するかは、ドメイン間でデジタルコンテンツを有効に利用する方法にとって極めて重要である。これらのメタデータ要件への取り組みを前進させる鍵となる方法は、我々がより厳格に記述しようとしているコンテンツやメタデータをモデル化することである。これにより、作成されるコンテンツやこれにアクセスしたいと望むエンドユーザのニーズに合ったメタデータ標準を作成することが可能となる。
OAI-PMH自体は限界が明らかになっている。OAI-PMHはその転送プロトコルとしてHTTPに束縛されているが、それが将来その利用を制限する可能性がある。OAI-PMHはXMLファイルのみを使っており、これは大きな柔軟性を提供しているが、セマンティックウェブやRDFといった可能世界における未来を約束するものではないかもしれない。RSSとATOMは今後も進化を続けると考えられる。これらの標準が自身のニーズを最高に満たせるようにするために、学術コミュニティはこの開発に関与する価値があるだろう。
アグリゲーションモデルで提案されている階層化されたサービス指向のアーキテクチャにおいて、コンポーネントや機能は異なる階層に分散されているので、様々なコンポーネントへのアクセスやコンポーネント間のアクセスを保証する必要がある。また、ネットワーク自体も信頼性のあるものである必要がある。サービスレベルの合意も必要であろう。もちろん、現在は必ずしも存在しない非技術的なコミュニケーションのレベルについても合意が必要だろう。アグリゲータとリポジトリが異なる場合は特にそうである。
最後に、持続可能性はエンドユーザによっても影響を受けることになる。リポジトリへのアクセスはユーザーの期待を満たすだろうか。リポジトリのエンドユーザサービスはユーザーの情報ワークフローにどの程度合致するだろうか。エンドユーザが利用できる幅広い情報環境における1つのサービスとして、エンドユーザの期待とニーズに合致して初めて、リポジトリ横断型のエンドユーザサービスは真に持続可能となる権利を得ることになるのである。
どんな技術モデルを提案する際にも、常に、時間がたってもそれがどの程度正しいかを検討する必要がある。取材したある人が述べたように、技術的という言葉と長期間という言葉は明らかに両立しない。しかし、これが最も当てはまるのは実装レベルである。アグリゲーションモデルでは数多くの標準や技術が提供しうる可能性を検討しているが、CORDRAモデル同様、何らかの特定の技術に依存していない。
アグリゲーションモデルを使ったリポジトリ横断型エンドユーザサービスの開発を今後検討する際には2つの観点を取り入れることができる。関心の幅を評価する他のコミュニティやイニシアティブでの採用水準と技術環境において幅広い高度な状況に応えるモデルの潜在能力である。
1. 採用
アグリゲーションを利用している数多くのイニシアティブについてはすでに本報告書や付属資料で取り上げている。OAI-PMHの使用とそのデータプロバイダとサービスプロバイダというモデルは、オープンアクセス分野における多くのイニシアティブの推進力となっている。このモデルは成功が証明されており、本報告書で行っている警告や勧告にも引き続き登場することになる。
しかし、OAI-PMHの利用においてだけでなく、アグリゲーションの有効性が認められた利用事例においてもアグリゲーションは重要な方法であると考えられた。Research Information Networkは、データセットの存在を知らせ、アクセスを容易にするために、データセットに関するメタデータを簡単な方法で中央レジストリ(アグリゲータ)に収穫し、デジタル情報と共に保存するデータWebの利用について研究している58。同プロジェクトは、特に、これを可能にする軽量なセマンティックウェブやWeb 2.0的アプローチの利用に関心を持っている。電子図書のメタデータと相互運用性のテストベッドを構築しているJISC-TIMEプロジェクトは、標準の作成を支援し、電子図書の目録レコードを図書館目録で簡単に利用できるようにするために電子図書メタデータの中央アグリゲーションの生成を組み込んだアーキテクチャを開発した59。米国のOpenCourseWareプロジェクトは学習資料を公的に共有するためのモデルを開発している60。このプロジェクトは現在のところ、特定のWebサイトを通じてこれらの資料を公開するために学習資料のためのアグリゲーションモデルを推進している。また、様々なOCWサイトを横断する発見を現在利用できるWebサーチより簡単にするためにこれらのサイトからメタデータを収集することを検討している。
2. 技術環境の補完
本報告書で取り上げたすべての事例は、各自の目的に必要なアグリゲーションを実装する方法について細部にわたる独自の技術的視点を持っている。本報告書で示したアグリゲーション活動の最も重要な側面の1つは、活動を個々の機関や組織からネットワークレベルに移す際に現れる付加価値である。これは、協力的アグリゲーションの一部とした方がより良いものを提供できるサービスを個々のリポジトリレベルで管理する必要をなくさせる。また、アグリゲーション自体、リポジトリ単独では不可能なサービスを提供することができる。このような施設を持ついくつかの研究会議はデータセンター(AHDSやESDSなど)を構築した際に、これに気が付いた。本報告書で提案する技術モデルは、可能であればこの成功したアプローチが拡大されることを推奨する。
そうするためには、作成したアグリゲーションが重荷になることなく状況に適応できるように柔軟性を持つことが必要である。e-Frameworkイニシアティブで勧告されたように、サービス指向アプローチに移行することにより、アグリゲーションを支援する各構成要素——リポジトリ、アグリゲータ、エンドユーザサービス——を必要に応じて柔軟に交換することが可能になる。しかしながら、リポジトリコンテンツが限界まで利用されることを保証するためにこの長期的目標を追求する価値がある。
サービス指向アプローチ(SOA)は、マシン対マシンインターフェースを通じた様々なコンポーネント間のコミュニケーションを軸として展開する。本研究で行ったインタビューで明らかにされた最も強い反応のひとつは、マシンレベルではなく人間が関与することではあったが、様々なコンポーネント間でもっと多くのコミュニケーションが必要であるということであった。様々なコンポーネント間で確立したいと考える相互作用を人間的見地から記述する方法を改良して標準化することは、SOA環境におけるコミュニケーションを可能にする適切なマシンインターフェースを定義するための一助となる。参照モデルの作成や関連の活動を通じてコミュニケーションを図るための共通の方法を確立するe-Frameworkイニシアティブは、この道に沿った価値ある一歩である。リポジトリとアグリゲータ、エンドユーザサービスの間の改善されたコミュニケーションは、リポジトリやオープンアクセス分野においてこれを容易にするだろう。
多くのエンドユーザサービスは現在ではパーソナル化の要素を持っている。これらのサービスは個人的なニーズに対応することを追及しているからである。我々は皆、デジタル資料の個人的なコレクションを程度はどうあれ組織化した形でコンピュータに保存している。我々は皆、個人的な観点でネットワークやそれを通じて利用できる情報を見ている。将来のサービスにおけるパーソナル化という側面は大きく、リポジトリ横断型サービスの提供においても例外ではない。エンドユーザが個人的にアグリゲーションを行い、このアグリゲーションを活用できるようにする方法が将来の課題となる。個人的な情報管理のために各人はどうしたら利用可能な様々なアグリゲーションを最高の形で利用できるのだろうか。
これを容易にするためにセマンティックウェブテクノロジの利用を唱える者や利用可能な情報を記述するためにRDFの利用を唱える者がいる。セマンティックウェブの潜在能力についてはまだ理解すべきことが多く残っているが、うまくいけばデータWebの研究などの活動が開発の道筋を切り開くだろう。RDFもまた、メタデータ生成で必要となる構造の自由度を提供する可能性がある。自分が作成しているリソースに関する有益なメタデータを、一組のメタデータ形式ではなくRDFによる最新のマークアップを使った独自の方法で提供できるとしたら、よりよく提供できると思うだろうか。ソーシャルタグは、それが人気を得ることができるルートであることを示唆している。
しかし、RDFの使用は簡単ではない。現在論争の元となっているものは、相互運用性を達成するための軽量なソルーションとより複雑なソルーションとの間のバランスである。たとえば、OAI-PMHやRSSを使った軽量なソルーションは、相互運用可能なシステムを使うよう人々を引き込むことができる。一方、DR OSIDのような複雑なソルーションはより大きな潜在能力を発揮させるために大きな初期投資を必要とする。前者の採用を奨励し、より詳細で付加価値のある相互作用への導火線として使用する必要がある。
JISCによる助成は、利用可能な総予算から高等教育部門へ配分するものであるので、当然、JISCがどのサービスに、どの程度長く助成すべきかについては議論がある。サービスに発展する可能性のあるプロジェクト、あるいは、本当に必要であるが公金による支援がないとビジネスへの足がかりがつかめないサービスへの投資と、一般的なサービスの開発への助成の違いについて、我々は明確に理解している。前者がJISCによる継続的な助成の候補であるが、一方で、ネットワーク上に存在するその他のサービスの中には自立ベースで発展するチャンスのあるものが数多く存在する。
現時点では、英国におけるリポジトリ環境はいまだ十分にリポジトリが行き渡っていない状況である。疑いなくこれは変化するだろう。しかも、英国や世界中で昨年設置された新規機関リポジトリの数から判断すると、おそらく極めて速やかに変化するだろう。現在、世界中には約650の機関リポジトリが存在するが、1年前はおよそ300に過ぎなかった——言い換えれば、1日に1つの割合で、世界のどこかで新しいリポジトリが誕生していたことになる。英国における成長を刺激した要因の1つは研究評価作業である。リポジトリは以前よりはるかに効率的にこの作業を行う方法を機関に提供するからである。英国における評価作業が将来は指標に基づいて行われることが大蔵大臣により発表された現在においては、リポジトリ——および、リポジトリが提供するオープンアクセスコーパス——の有用性は、より納得のいく形で証明されると考えられる。現在手にしているどんな指標より研究評価にとってはるかに意味のある新しい指標を開発することができるだろうが、これは研究文献(およびデータ)がオープンアクセスである場合に限り作成できるものである。研究評価は次世代におけるオープンアクセスやリポジトリを進展させる駆動力の1つとなるだろう
短中期の成果は、研究ベースのすべての機関が独自のリポジトリを持つようになり、教育を主要な目的とする高等教育機関が教育や学習の機能を向上させるツールとしてそのような施設を持つ戦略的利点を理解するようになることである。このシナリオを考えた場合、リポジトリサービスの開発は当然の結論である。
リポジトリネットワークが成熟するにつれ、サービスは成長し、投入された投資に対するレバレッジ効果を実現し、機関やエンドユーザの独自のニーズに応えるますます多くの選択肢を提供するようになるだろう。これらのサービスには、公的な助成を受けたプロジェクトを起源とするものもあるし、商業部門で新たに開発されて提供されるものもあるだろう。ここで死活問題となるのは、これらのサービスが最大の成功を収めるためにはどのようなビジネスモデルを選択するかである。なぜなら、本研究が対象とするリポジトリサービスの実現可能性と持続可能性は正しいビジネスモデルと管理モデルを採用することにかかっているからである。既に存在するサービスの中には完全な商用モデルへの移行に成功しているものもあるが、そのほかは長期にわたってJISCの支援をベースに活動を続けている。少数のサービスは過渡期にあるが、より多くのサービスがこれに続くことをJISCが希望していることは間違いない。明らかな商用ビジネスケースが考えられる場合はこれを期待できるが、それ以外の場合の長期モデルはコミュニティや公的助成に依存するものであり続けるかもしれない。
リポジトリサービスの年間経費はサービスにより大きく異なるだろう。現時点で信頼できる経費の数値を挙げることは難しいが、いくつかの例から、サービスの運用経費についてのおおよその感じをつかむことができる。これらのうちいくつかは開発中、あるいはプロジェクト段階にあるサービスから選んでいるので、数値を見る場合は注意が必要である。
機関リポジトリを構築する初期経費については先の研究で調査した(Swan et al, 2004)。その中で、我々は4つの機関リポジトリについて実際の構築経費と運用経費を報告している。
機関 | 構築経費 | 運用経費 |
---|---|---|
MIT (DSpace) | 180万ドルの補助金 : DSpaceソフトウェアのオンサイトでの開発 | 人件費 225,000ドル |
常勤職員3名 | 運営経費 25,000ドル | |
システム装置に40万ドル | システム装置 35,000ドル | |
合計 240-250万ドル | 年間運営経費 285,000ドル | |
アイルランド国立大学 メイヌース校 | ソフトウェアは無料(EPrints) 構築とカスタマイズを行う計算機科学科の学生を6ヶ月雇用するための補助金 | 維持管理のために常勤職員1名 |
サーバに5,000ユーロの補助金 | ||
合計 20,000ユーロ | 合計 30,000ユーロ | |
クイーンズ大学QSpace CARL | ソフトウェアは無料(DSpace) | |
サーバは機関に設置 | 図書館職員: 25,000カナダドル | |
プログラマを12ヶ月: 5万カナダドル | IT技術職員: 25,000カナダドル | |
教官へのアドボカシーのための人件費 | ||
ハードウェア: 2,065カナダドル | ||
合計 52,065カナダドル | 合計 50,000カナダドル | |
SHERPA: ノッティンガム大学 | ソフトウェアは無料(EPrints) | HEI経費に組み込まれている保守経費: 年間 5 FTE日 |
標準的なサーバ: 1,500ポンド | 調整と資料収集 3万ポンド | |
インストール: 2-5 FTE日で600ポンド | 3年間のハードウェア・ソフトウェアの更新経費: 2-5 FTE日と3,900ポンド | |
初期カスタマイズ: 15 FTE日で1,800ポンド | ||
合計 3,900ポンド | 合計 33,900ポンド |
表 7: 機関リポジトリの構築と運営に係る経費: ヨーロッパと北米における4つのリポジトリの実際例
(Swan et al, 2004による)
下の表は、論文のデポジットを仲介者が行う場合の経費を示している。ノッティンガム大学のリポジトリの例である。すべての経費の単位は英国ポンドである。
初期構築経費(£) | 技術支援・保守(£) | 年間運用経費(£) | 論文入力経費(£) | ||||
---|---|---|---|---|---|---|---|
ソフトウェア | 0 | HEI標準的Webサービス保守: 3年毎の更新 | 人件費 | 30,000 | 1週間当たりの時給 | 17.7 | |
サーバ | 1,500 | ハードウェア | 3,000 | 1時間当たりの論文数 | 4 | ||
インストール | 600 | 作業費 | 600 | ||||
カスタマイズ | 1,800 | ||||||
3,900 | 3,600 | 4.46 |
表 8: ノッティンガム大学e-プリントリポジトリの入力経費
(Swan et al, 2004による)
すべてのリポジトリがデポジットの仲介をしているわけではないことに注意すべきである。基本的に著者のセルフアーカイブにより運用しているリポジトリも存在する。Carrはサウサンプトン大学リポジトリのログを分析して、平均的な研究者が機関リポジトリに論文をデポジットするのに要する時間は年間40分であると報告している(Carr & Harnad, 2005)。
リポジトリの経費に関する下院科学技術委員会の独自調査では、1機関あたりリポジトリの構築に3,900英国ボンド、年間の運用経費に31,300ポンドかかると結論付けた。同調査は、全国的にしかるべき数のリポジトリを構築するための経費は50万ポンド強、年間の運用経費は400万ポンド強であると推定した。本研究における運用経費では、仲介者によるデポジットの経費は含めたが、技術支援経費については機関全体の経費に組み込まれていると仮定して含めておらず、何らかの保存のための特別経費も計上していない。
Mornati61は、イタリアの教育機関のために彼女の所属機関(CILEA)が負担したリポジトリの構築および運用経費について、リポジトリの構築と初年度の運用経費が7,200ユーロ、その後の年間経費が2,400ユーロであると報告した。Kemp62はリポジトリを運用している機関から収集した様々な数値を報告し、構築経費には6,887米ドルから100万米ドル超までの幅があることを示した。Rakin(2005)は、リポジトリは初年度には構築と運用でFTE換算で最高3人分の、それ以降の運用にはおそらく1人分の経費がかかると計算した。
オランダのCream of Scienceイニシアティブは当初10万ユーロの予算であったが、プロジェクトが進み、経費をより明確にできるようになるとその額は2倍になった。このイニシアティブの最終的な1論文あたりの平均経費は50ユーロであったことが現在では明らかになっている。この額には、デジタル化を含むデポジットに関わるすべての作業が含まれている(Feijen & van der Kuil, 2005)。ただし、これには、メタデータの標準化や詳細な目録作業は含まれていないことに注意すべきである。
この後者の作業は非常に高価につく可能性がある。平均的なアメリカの大学ではおそらく1冊の図書の完全な目録を作成するのにおおよそ50から75米ドルかかると予想しており、逐次刊行物についてもほとんど同じである63。逐次刊行物タイトルの目録作業の経費に関する長期にわたる公式な研究がアイオワ州立大学のDilys Morris等により行われており、レコードを1件作成する基本的経費は諸経費込みで約15米ドルであるが、しっかりとした典拠作業を行うとこの額は数倍に膨れ上がる可能性のあることが示されている(Morris et al, 2000)。個々の論文のメタデータ作成に要する経費についてはもう少し低いと予想されるが、メタデータの品質に関して厳しい仕様、特に制限語彙の使用を必要とすると経費は高くなるだろう。これは単純な記述的目録に比べてはるかに高い専門性を必要とするからである。
さらに別の数値が、オーストラリアのメルボルンにあるビクトリア大学の John Houghtonにより提供されている。序言におけるJohnの以下の文は学術コミュニケーション部門における経費に関するデータの収集に対する状況を反映している。
「考えうるあらゆるものの経費の見積り、OAの潜在的な利益の定量化の試み、これら潜在的利益と高等教育機関における機関リポジトリの全国システムに係る経費との比較をしたが ... おそらく最も弱い部分は、機関リポジトリの経費である。徹底的な文献調査とこの地の専門家との議論から、経費はすべてのケースで異なり ... 機能性のレベルなどにより ... その額は非常に小さいものから大きなものまであることを示している。報告書で我々は、King & Tenopirの線に沿って、徹底的な文献調査に基づいてすべての学術コミュニケーション活動のための経費モデルを作成し、この地の専門家との議論に基づいてオーストラリアの現状に合うように洗練させた。文献調査から年間のIR経費が4,000豪ドルから8万豪ドルの範囲にあり ... ハードウェアとソフトウェアの5年間の減価償却費が年平均でおよそ42,500豪ドルであることがわかった。しかし、この地の専門家との議論では、関連する方針の策定や調整活動に係る全体経費(給与、間接費、諸経費)が年間最高で24万豪ドルにのぼることが示された。これらすべてから、オーストラリアの高等教育機関における機関リポジトリの全国システムに係る経費は ... その機能性や機関の独自購入水準、研究管理・報告システムとの統合水準などにより、年間200万から1,000万豪ドルかかることがわかった。」
メタデータの作成や比較的簡単な資料発見サービスの構築のために必要な経費もある。RDNにおける(かなり複雑な)オブジェクトのメタデータの作成経費は1レコードあたり12.50英国ポンドであると報告されている64。ただし、RDNのような組織におけるメタデータ作成経費を考える場合には注意が必要である。アイテムのメタデータの作成プロセスは1回限りのものではなく、サイトの変更などにより更新作業が必要であり、継続的な保守費用が発生するからである。
素晴らしい設計で非常に多機能な工学、数学、計算機科学のための資源発見サービス65をヘリオット・ワット大学が構築した際の2年間の予算は66,000英国ポンドであった。オーストラリアで全国のARROWリポジトリを横断して稼動するARROW Discovery Serviceの18ヶ月のプロジェクト管理期間における経費は約39,500英国ポンドであった。また、同期間にソフトウェア開発経費として24,000英国ポンドかかっている66。
工学のためのリポジトリ横断発見システムであるPerX67の試験期間における2年間の予算は102,000英国ポンドであった。
その他の種類のリポジトリサービスの経費は推定ができるだけである。本報告書で挙げられているほとんどの種類のサービスは、コンセプトの証明や試験を行う既存のプロジェクトを基に構築されるだろう。これらのための経費はこれまでのところ開発作業に関わるものであり、成熟したサービスとしての運用経費ではない。これらについては——予想される人件費や固定資産経費に基づいた—推定値を使うことができるだけである。そして、この問題を扱う最も便利な方法は、一連の経費レベルで想定されるリポジトリサービス経費を分類することである(次節参照)。
電子情報や電子商取引の分野における活動のビジネスモデルに関する研究は既に存在する。そのうちの最も重要な例を手短に紹介しておくことは役に立つだろう。
Rappa(2001)は、9つのモデルの類型を示した。そのうち、最も妥当なモデルは以下の通りである。
Timmers(1998)は、Rappaの研究を基に、11のビジネスモデルを含むもうひとつの類型を作成した。これについて詳細に触れる必要はないが、ここで指摘するべき点は、RappaとTimmersが、若干異なる言葉を使ってはいるものの、e-情報分野で採用することができるビジネスモデルの基本的なタイプについて同意していることである。我々の目的のために、リポジトリサービスで採用されるかもしれないモデルを記述することができるビジネスモデルの簡単なリストを作成した。
オランダのSURF財団により構築されたDAREnetプログラムは、ネットワークの全体的なビジネスモデルに関して非常に明確である。データ層の実体は公的なコンテンツを表しており、それに必要なインフラは機関(DAREnetの場合は、もっぱらオランダの大学である)の責任の範疇に入る。我々はこれに賛同し、主に2つの理由でこれが英国においても同等に機能するはずだと考える。第1に、大学や研究機関が機関リポジトリを持つことには明らかな組織上の利点が存在する。全体的なビジネスケースを作成することは比較的容易であり(「機関内で」実行すると複雑になる機関も存在するかもしれないが)、(1つ、あるいは複数の)リポジトリは、高等・成人教育機関のデジタル資産を収集し保管する方法として機関の運営に極めて速やかに組み込まれ、研究教育機関の日常生活の一齣となる概念である。第2に、リポジトリの構築経費は、既に述べたように、機関がリポジトリに要求する、あるいは期待するものにより大きく異なることである。それゆえ、どの程度のリポジトリにするかは機関が判断すべき問題であり、適切な資金や経常支出の額は各機関が決めるべきものである。これは、標準化をしたり、(たとえばJANETネットワークがそうであったように)配分による助成から支払われるようなものではない。したがって、データ層の提供は、機関の責任として残すべきである。
サービスレベルでは、話は違ってくる。サービスの中には、依然として公的資金に頼り、配分予算から支払われる必要があるものもあるだろうが、別のビジネスモデルで運用することが期待できるサービスも存在する。現金払いや購読、広告、およびこれらの組み合わせの形で市場から利益を得るという純粋な商用モデルを想定できるサービスもあるだろうし、コミュニティの参加、貢献、協力により維持されるコミュニティモデルを採用できるサービスもあるだろう。まずあるモデルでスタートし、提供するサービスの成熟と共に別のモデルに移行するサービスもあるだろう。この例としては、当初はコミュニティモデルのサービスとして開発し、その後、市場において商用ベースで運用を持続できるニッチを探すプロジェクトが挙げられるだろう。
以下に、本報告書で検討したサービスに最もふさわしいと我々が考えるビジネスモデルの一覧表を示す。さらに、スケーラビリティや関連するリスク、時間の経過に伴いモデルが変更される可能性など、各ビジネスモデルの特徴も一緒に示した。この表は、本報告書の最初に述べたものと同じテーマにしたがっている。すわなち、サービスは、受入レベルのサービス、前アグリゲータレベルのサービス、出力レベルのサービスに分類されている。
この表は、リポジトリ部門において行われる可能性のあるものを評価するというJISCの要求を満たしていると我々が考えるビジネスモデルの類型に基づいている。検討するビジネスモデルは以下の通りである。
以下の表のカラムの意味は次のとおりである。
サービス | 経費の目安 | 適切なビジネスモデル | スケーラビリティ 1 = 容易 5 = 困難 | 関連するリスク | コメント | ||||
---|---|---|---|---|---|---|---|---|---|
機関 | JISC助成 | コミュニティ | 購読 | 商用 | |||||
受入レベル層のサービス | |||||||||
デジタル化 | 中 | ![]() | 販売 | 1 | 低 | 機関は自分でデジタル化するか、商業ベースで運営しているサードパーティから購入する | |||
権利/IPRに関する助言 | 低 | ![]() | 1: ただし、おそらく実質的にはスケーラビリティは必要とならないだろう | 低 | HE/FE部門では中心的サービス | ||||
オープンアクセスのアドボカシーに関する助言 | 低 | ![]() | 1: ただし、おそらく実質的にはスケーラビリティは必要とならないだろう | 低 | HE/FE部門では中心的サービス | ||||
技術上の助言 | 低 | ![]() | 販売 | 1: ただしおそらく実質的にはスケーラビリティは必要とならないだろう | 低 | HE/FE部門では中心的サービス。 商用のリポジトリ構築サービスの一部として提供する商用提供者があるかもしれない。 | |||
リポジトリ構築 | 中 | ![]() | 販売 | 1 | 低 | 機関は自分で構築するか、商業ベースで運営しているサードパーティから購入する | |||
ホスティングサービス | 中 | 販売 | 1 | 低 | 機関は商用提供者から購入する。 | ||||
データ層の提供: | |||||||||
機関リポジトリ | 低/中/高 | ![]() | 非該当 | 低 | 経費は、機関のリポジトリに対する目的や目標により大きく異なる | ||||
全国規模の「受け皿的」リポジトリ | 低 | ![]() | 1 | 中 | HE/FE部門では中心的サービス | ||||
主題リポジトリ | 低 | ![]() | ![]() | 2 | 中 | おそらく機関やコミュニティにより構築されるだろう | |||
メディア/オブジェクト専用リポジトリ | 低/中 | ![]() | ![]() | 2 | 中 | おそらく機関やコミュニティにより構築されるだろう | |||
前アグリゲータ層のサービス | |||||||||
メタデータの作成と品質向上 | 中/高 | ![]() | 販売、広告 | 機械による: 2 人間による: 5 | 中 | 既存の、および将来のJISC助成によるプロジェクトは長期にわたる支援を必要とするかもしれない。 営利会社もこのニッチで商売をするだろう | |||
ポストアグリゲータ層のサービス | |||||||||
技術移転 | 低 | ![]() | 販売 | 1: ただし、おそらく実質的にはスケーラビリティは必要とならないだろう | 低 | HE/FE部門では中心的サービス: プロジェクトから本番サービスへの移行方法に関する助言 | |||
出力レベル層のサービス | |||||||||
アクセスと認証 | 高 | ![]() | 情報仲介 | 3 | 中 | ||||
利用統計 | 中 | ![]() | 販売 | 2 | 低 | ||||
保存 | 高 | ![]() | ![]() | 販売 | 5 | 高 | 課題は増加するだろう ユーザ環境により様々なモデルが考えられる | ||
研究モニタリング | 低 | ![]() | 販売 | 2 | 低 | ||||
資源発見 | 中/高 | ![]() | ![]() | ユーティリティ、広告 | 4 | 中 | 課題は増加するだろう ユーザ環境により様々なモデルが考えられる | ||
オーバーレイジャーナル | 低 | ![]() | 販売、広告 | 1 | 低 | 機関が自分で運用することが可能(たとえば、Lund Virtural Medical Journal) そうでなければ、商業提供者が参入できる機会も多い | |||
出版 | 中 | ![]() | 販売、広告 | 1 | 低〜中 | 出版サービス(査読など)は商業(出版社)ベース、あるいはコミュニティ(学会)ベースで提供されるだろう。 付加価値商品も両ベースで提供されるだろう | |||
メタ分析 | 低 | ![]() | 販売 | 2 | 低 | 開発経費は高いかもしれないが、サービスの運用経費は低いはずである | |||
橋渡しサービス | 中 | ![]() | 購読、広告 | 3 | 中 | HE/FE部門では中心的サービス(たとえば、ROAR、UKCORR、OpenDOAR)。 営利会社もこのニッチを開発するかもしれない |
表 9: 英国のリポジトリ横断型サービスのためのビジネスモデル
英国中のオープンアクセスリポジトリを網羅し、それに基づくユーザ指向サービスを持つシステムの構築は、ビジョンと明確な対象を持つ組織により導かれない限り、正しく行われることはないだろう。そのプロセスにおける重要な課題は、計画と連絡および調整である。作業は複雑であり、しっかりとした管理と参加するすべての団体に全体的なビジョンを提示する能力を必要とする。その成果は、最高に価値のある目標であり、すべての参加者と関係者にたくさんの機会を提供することである。これらの活動の調整は取り組む必要のある課題である。
以下の勧告をJISCに対して行う。(2)