Mar. 2024No.102

日本の文化芸術と情報学

Essay

古典籍から本格化する人文学のデータ駆動型研究

Keizo Oyama

国文学研究資料館 特任教授/古典籍データ駆動研究センター長
国立情報学研究所 名誉教授/特任教授/データセット共同利用研究開発センター長

科学の第4パラダイムとしてデータ中心科学が提唱されてから十数年を経て、わが国の人文学においてもデータ駆動型研究への取り組みがようやく本格的に始まろうとしている。文部科学省の学術フロンティア推進事業の1つである「データ駆動による課題解決型人文学の創成」が国文学研究資料館(以下、国文研)により2024年度より10年計画で実施される予定である。これは2023年度までの10年間実施されてきた先行事業「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」の後継事業という位置づけとなる。先行事業の主要な成果の1つが、約30万点の古典籍(江戸期以前の写本や書籍)の画像データベースの構築と、それを既存の目録データベースと統合した「国書データベース」の公開である。わが国初の古典籍の本格的なデジタルアーカイブともいえよう。

後継事業では、その拡充・機能拡張はもとより、画像データのテキスト化を行ってデータ駆動型研究の基盤を構築するとともに、人文情報学の主要なツールであるテキスト解析への展開、異分野連携によるコンテンツ解析、古典籍のマテリアル分析などの研究を実施する計画である。さらに、国文研が属する人間文化研究機構の各機関と連携してデータ駆動型人文学の横展開も予定している。

ちなみに筆者は、先行事業の推進のために国文研に設置された委員会の外部委員として、当初より事業のモニタリングや評価に関わってきたが、2022年度に国文研に設置された「古典籍データ駆動研究センター」のセンター長を拝命し、国文研の中で後継事業を推進する立場となった。

ここで少し振り返ってみると、欧米では Digital Humanities が20年ほど前から広まりを見せ、国家レベルのプロジェクトとしてのデジタルアーカイブの構築や OCR 技術との相性の良さも相まって、今では人文学の主要な一領域となっており、データ駆動型人文学はその自然な延長上に位置づけることができよう。

一方、わが国でも人文情報学の研究が同時期から進められてきたが、日本語という言語の特性やデジタルアーカイブの構築の遅れなどから、国立国語研究所の日本語言語コーパスなど一部を除くとデータの蓄積が散発的にしか進まず、やむなく情報処理手法の研究開発に軸足が置かれてきた感がある。そうした中、2017年度に人文学オープンデータ共同利用センター (CODH) が正式発足し、国文研との共同研究などを通じてデータ駆動型研究への取り組みが開始された。

しかし、人文学研究の主対象は何と言ってもテキストであり、データ駆動型研究のためには大規模で網羅性のあるテキストデータベースが不可欠である。後継事業ではくずし字 OCR 技術を活用して画像データをテキスト化する計画であるが、現在の文字認識精度は平均で95%程度であり、資料の状態や筆跡によっては著しく精度が落ちる。そのままでは研究に使えないというのが人文学者のほぼ一致した意見であろう。しかも、すべての校定を人力で行うには数百年、あるいはそれ以上を要するとの見積りもある。だから OCR は使えない(あるいは使うべきでない)という者もいる一方、それでも何とか使えないかと考える者もいる。そこで、一緒に知恵を働かせて力を発揮できるのが情報学研究者ではなかろうか。

古典籍は文学・歴史・芸術などの限られた学問分野でしか使われないと思われがちであるが、実はそれ以外にも商業、防災、疫学、気象、地震、天文など、現代的にも価値を持つ多様なコンテンツが含まれており、様々な分野に有益な先人の知見が埋もれている。これを埋もれたままにしないためにも、情報学に対する期待は大きい。

記事へのご意見等はこちら
第102号の記事一覧