平成9年度学術情報センターシンポジウムの開催報告

 学術情報センターでは,平成9年度学術情報センターシンポジウムを大阪府立中央図書館ライティホール(10月30日(木)),およびお茶の水大学大講堂(12月2日(火))において実施しました。

 このシンポジウムは,学術情報センターの研究開発や事業活動および学術情報システム全般に関わる動向などに関連したテーマを設定し発表と討議を行うもので,例年関西と東京で開催しています。

 本年度は「全文検索と将来の情報提供サービス」をテーマとし,情報検索の分野で最近注目を浴びている「全文検索」の概要,具体的な応用事例,今後の展望などについて,外部講師2名および本センター教官2名が講演を行いました。関西会場は216名,東京会場は352名の参加があり,両会場ともに熱心に講演に耳を傾けている姿が見うけられました。

 シンポジウムは,東京会場は本センターの猪瀬博所長,関西会場は井上如副所長による主催者の挨拶で幕を開け,午前・午後にわたり4講演を行いました。全ての講演が終了した後に設けられた質疑応答の時間には,参加者からたくさんの質問が寄せられ,関心の高さがうかがわれました。

 各講演の講師および講演要旨は次のとおりです。本シンポジウムの講演要旨はWWWでも公開していますので,併せてご覧下さい。

 URL  http://www.nacsis.ac.jp/hrd/welcome.html

主催者挨拶(猪瀬所長:東京会場)

主催者挨拶(井上副所長:関西会場)

全文検索の基礎技術

図書館情報大学 副学長 山本 毅雄

 テキストデータのディジタル化が,激しい勢いで進行しており,現在では,新たに作成されるテキストの大部分は,コンピュータ(ワードプロセッサ,PC,ネットワーク端末)上で生産されている。また,OCR技術の進歩で,既存の書籍や新聞・雑誌などのテキストデータのディジタル化も容易になり,これらの情報が,ディジタル図書館に集積されつつある。

 これらのテキスト情報を処理するコンピュータの速度は,たしかに急速に上がっているが,データの蓄積量もそれに対応して増加する。しかもこれらのデータは,主メモリに比べて格段にアクセス速度の遅い磁気ディスク・CD-ROMなどの外部記憶に入っているので,大量のテキストデータの処理にはあいかわらず時間がかかる。適切な蓄積・検索の技術が重要になるわけである。

 大量のテキストの検索にはさまざまな方法があるが,なかでも全文検索はその基礎となり,またある意味では最終目標となる技術である。本講では,全文検索の技法(順次検索方式−Boyer-Mooreアルゴリズム,転置索引方式,PAT木方式,シグネチャ・ファイル方式など)について解説し,関連する問題について言及した。

 現在,電子図書館の整備が進んでいるが,外部からのアクセスに対応するには,使い勝手のよい全文検索機能が一つのキーとなろう。しかし巨大なテキスト集合の全文検索のためには,未解決の問題が多く,今後一層の研究・開発努力が望まれる。

Japioのオンライン検索システムにおける全文検索

(財)日本特許情報機構サービス部管理課 主査 清水美都子

 本講では,Japioが提供している商用オンラインシステムにおける,インデックスを利用したサービスと全文検索サービスの実例を紹介する。

 Japioが提供しているオンライン検索システムのうち,今回のテーマに関係するものでは,PATOLISの特許ファイルおよび実用新案ファイルを対象とする検索と分散処理型特許・実用新案検索システムの全文検索がある。

 PATOLISは,特許情報のオンライン検索システムで,特許に関しては昭和30年から,実用新案については昭和35年からデータが蓄積されており,1978年にサービスを開始した。PATOLISは1990年からコマンド方式を採用したが,これに加えて,1997年4月よりGUI方式のPATOLIS-Webも提供している。Web版は,PATOLISの基本的なコマンドが利用でき,ファイル,データはPATOLIS-IIIと同じものが利用できる。また,このWeb版ではオンライン上で図面などのイメージデータの出力もできる。

 分散処理型特許・実用新案検索システムは,特許,実用新案のCD-ROM公報が発行されるようになった平成5年以降の公報を対象に,明細書の全文を検索するシステムである。操作はGUI方式を採用して,エンドユーザにも馴染み易いようにしている。

 双方のシステムの検索手法および長所・短所について説明し,今後の展望について述べる。

 特許の調査では網羅的な調査が求められる傾向にあり,複数のシステムにあたって情報の確認をしたり,補完をすることを求められることがある。双方のシステムを用いることで,一方のみでは得られなかった情報をもう一方で得て,全体の網羅性を高めることも重要と考える。

全文検索とテキスト構造

学術情報センター 研究開発部 助手 神門 典子

 電子的なテキストが増加するにつれて,全文検索が身近なものになっている。全文検索は,本文中の語句で検索できること,検索結果として書誌事項や抄録だけでなく,本文も得られるなどの利点がある。一方では,検索精度の低下,1レコードが長く検索された文書の内容を画面上繧ナ確認しにくいなどの問題点がある。

 検索対象となる「全文」,すなわち「テキスト」は,単なる語句や文の寄せ集めではなく,構造がある。全文検索では,語や文レベルの特性だけでなく,このようなテキストとしての特性を利用することにより,より効果的な検索が可能になると期待される。そこで,本稿では,テキストとしての特性に着目した情報検索の研究動向を紹介し,実用化の方向性,学術情報センターでの取り組み,今後の課題にも言及する。

 全文検索をめぐる研究動向の流れの一つは,語句や文というレベルではなく,テキスト・レベルの特性,テキストの構造に着目した研究である。テキスト構造は,テキストを構成する要素,要素間の関係付け,関係づけられた要素が構成する全体としての成り立ちという側面からとら轤ヲることができる。

 テキストを要素へ分割したパッセージ検索は,テキスト単位の検索より精度がよく,利用者にも便利である。パッセージやテキストを内容の類似度などにより相互に関連付けると柔軟なエンドユーザ指向のハイパーテキスト型検索システムとなる。さらに,テキストの種類に応じた特徴的な構成要素に着目すると,語句がテキスト中で果たしている役割や機能を識別できるようになり,検索,自動抄録,自動要約,テキスト間の関係づけなど多様な応用が考えられる。

 一般にシステムの実用化に際しては,システムの頑強性,あらゆる種類のテキストにも対応できることが重要である。このようなテキストの種類や特定のトピックに限定された研究成果を実用化するには,前提として,「テキスト・ジャンルの自動分類」,「分析用テンプレートの自動生成」が必要である。これらの研究は,まさに始まったばかりであり,今後が楽しみな分野である。

百科事典の全文検索の将来

学術情報センター 研究開発部 助教授 橋爪 宏達

 1997年は「エンカルタ 97」(マイクロソフト社),「マイペディア 97」(日立デジタル平凡社),「ブリタニカ国際大百科事典・小項目版」(TBSブリタニカ社)などの,CD-ROMに収められた日本語百科事典が相次いで発売された,記念すべき年である。

 本講演では,これら代表的な百科事典CD-ROMの諸機能について全文検索を軸に紹介するとともに,コンピュータ技術が将来の百科事典利用をどのように変えていくかを展望する。

 西欧における百科事典の系譜はギリシャ・ローマ時代に遡ることができるが,それが本格的な姿を現したのは18世紀以降である。

 百科事典の項目には,数ページ以上の紙面を割いて記述した「大項目」と,それより短い「中項目」「小項目」といった記述方式がある。そのいずれに力を注ぐかは各百科事典の編集方針による。伝統的には,学問諸分野の体系的記述をめざすため大項目主義であったが,使用の簡便さや日常用語を広く収集するなどのため,徐々に中小項目へ比重を移してきた。

 一方,百科事典の編集で常に問題だったことは,どこまでの知識を収容するか,日々変転する知識にあわせて記述をどう改定するか,であった。伝統的には,補遺や年鑑で新知識を補い,10年に一度くらい全面改訂することで対応していた。

 電子百科の究極の姿は「全ての事実を集めた本」ではなく,「すべての知識をリンクできる網羅的な知識体系」であろう。個別の記載はハイパーテキストでその時々の適当な文献をつないでいけばよいからである。その意味で求められる電子百科事典像は,知識の体系化をめざしたギリシャ・ローマ時代の百科全書に戻りつつあるといえる。

質疑応答風景

(研修課)


目次へ戻る          次へ