> HOME > データ一覧 > 国文研データセット

「国文研古典籍データセット(第0.1版)」

人間文化研究機構 国文学研究資料館が所蔵する古典籍(主として江戸時代以前の書物)について,国立情報学研究所が協力して提供するデータセットです。

2015/11/10 更新

データ概要

国文学研究資料館では,「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」において,約30万点の古典籍を画像化した「日本語の歴史的典籍データベース」の構築を目指しています。

ここではまず,その先行公開版として国文学研究資料館が所蔵する約350点(第0.1版)をオープンデータとして提供します。

データセットは以下のもので構成されています。

    • 古典籍画像データ
      350点の各作品について,その全冊(約63,000コマ)のJPEG形式の画像データです。なお今回提供する画像データは,画像作成内製化実証試験の一環として国文学研究資料館内でデジタル化したものを多く含みます。またこれらは国文学分野のほか,国文学研究資料館で収集した,医学や理学,産業など多分野の古典籍を含んでいます。
    • 書誌データ
      350点の各作品の書誌データをテキスト形式でまとめたものです。国文学研究資料館で公開している「日本古典籍総合目録データベース」より,書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。
    • 本文テキストデータ
      一部の作品については,その翻刻本文テキストデータを付しています。
    • タグデータ
      一部の作品については,国文学研究資料館で付与作業を行っている,1枚1枚の画像に対する文中の固有名詞のタグ情報もCSV形式のデータとして提供いたします。

これらのデータについて1点あたり1ファイル,圧縮ファイルで約415MB,展開後は約423MB平均となります。全てをダウンロードすると141GBとなりますので,留意の上,ダウンロード作業等を行ってください。

更新情報

  • 「国文研古典籍データセット(第0.1版)」の配布を開始しました。(2015/11/10) NEW!!
  • 「国文研古典籍データセット(第0.1版)」の配布を2015年11月10日(火)から開始いたします。(2015/11/4)

提供対象者

クリエイティブ・コモンズ・ライセンス
国文学研究資料館 作『古典籍データセット(第0.1版)』はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)で提供されています。

この条件に同意される方であればどなたでもご利用頂けます。

データ提供方法

一括ダウンロードか,作品ごとのダウンロードかを確認の上,ダウンロードしてください。なお,個別のご要望には応じかねますのでご了解下さい。

データは原則としてWebサーバからのダウンロードにより提供します。技術的な理由によりダウンロードができない場合はご相談下さい。

データダウンロード

こちらのページよりデータをご選択の上ダウンロードして下さい。

利用者向けページ

今後の改良に向けて,近く準備いたします。その際にはご協力をお願いいたします。

データの提供に関する問い合わせ窓口(IDR事務局)

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所 IDR事務局
電話: 03-4212-2009
電子メール:idr [at] nii.ac.jp
※問い合わせ等はできるだけ電子メールでお願いします。

データの内容に関する問い合わせ窓口(国文研)

〒190-0014
東京都立川市緑町10-3
国文学研究資料館 古典籍共同研究事業センター
電話: 050-5533-2988
電子メール:cijinfo [at] nijl.ac.jp