事業について
事業について
NACSIS-CAT/ILLシステム情報
クライアント作成のための技術資料
NACSIS-CAT/ILLのWindows Vista対応
》NACSIS-CAT/ILLのWindows Vista環境等での利用についての対策について 》テストサーバの公開について
》業務用サーバへの対応について 》対応の詳細について
》漢字包摂と漢字統合インデックスについて 》UCS外字(サロゲートペア)と文字フォントについて
》便利なツール 》参考資料
NACSIS-CAT/ILLのWindows Vista環境等での利用についての対策について
Windows Vista環境等でのクライアントの利用に対応するため、各文字コードインターフェイスにサロゲートペアとなるUCS外字を追加します。 また、UCS外字利用に問題のある場合のために、Windows Vistaの文字表示に対応したUTF8Eインターフェイスを追加します。 詳細につきましては、「対応の詳細について」をご覧ください。

テストサーバの公開について
下記のとおり、対策を行った専用のテスト用サーバを公開します。
  • ~平成21年3月13日(金)20:00
  • アドレス:cattest.nii.ac.jp
  • 稼働時間:平日9:00~20:00(但し、臨時で停止する場合があります)
  • データベースの状態:平成21年2月末のデータ(テスト期間終了後、テスト環境の全データを破棄します)
  • 業務用サーバ、教育用サーバ、(通常の)テスト用サーバへの対応について
    下記の予定で業務用サーバに適用します。
  • 平成21年3月23日(月)~
  • ▲ページTOPへ戻る
    対応の詳細について
    対策の内容は下記のとおりです。
    インタフェース サポート対象文字種(入力:CATPリクエスト時) サポート対象文字種(出力:CATPレスポンス時)
    JIS7 ASCII
    JISX0201-Roman
    JISX0208:1978
    JISX0208:1983
    EXC文字
    JISX0212:1990
    JISX0213:2000(1面)
    JISX0213:2000(2面)
    JISX0213:2004(1面)
    (UCS外字入力可)
    ASCII
    JISX0201-Roman
    JISX0208:1978
    JISX0208:1983
    EXC文字
    *出力返答に含まれるJISX0213,JISX0212の文字種及び上記で表現できない文字は,UCS外字で表現
    ISO2022JP ASCII
    JISX0201-Roman
    JISX0208:1978
    JISX0208:1983
    JISX0212:1990
    JISX0213:2000(1面)
    JISX0213:2000(2面)
    JISX0213:2004(1面)
    (UCS外字入力可)
    ASCII
    JISX0201-Roman
    JISX0208:1978
    JISX0208:1983
    *出力返答に含まれるJISX0213,JISX0212の文字種及び上記で表現できない文字は,UCS外字で表現
    UTF8 UCS-2
    (UTF-8上1文字4バイトとなる文字のうち,UTF-16のコード範囲の文字を追加)
    (UCS外字入力可)
    UCS-2
    (UTF-8上1文字4バイトとなる文字文字種はUCS外字で表現)
    UTF8E UCS-2
    (UTF-8上1文字4バイトとなる文字のうち,UTF-16のコード範囲の文字を追加)
    (UCS外字入力可)
    UCS-2
    (UTF-8上1文字4バイトとなる文字のうち,UTF-16のコード範囲の文字を追加)
    GB/GBK チェックは行わない(現行どおり) チェックは行わない(現行どおり)

    UCS外字
      CATPリクエスト時(JIS7, ISO2022JP, UTF8, UTF8E) CATPレスポンス時 (JIS7, ISO2022JP) CATPレスポンス時 (UTF8)
    変換仕様 「◆Unnnn◆」を,nnnnをコード値とするUCS1文字に変換する。
    「◆Unnnn◆◆Unnnn◆」(サロゲートペア)をUCS1文字に変換する。
    UCS1文字(コード値nnnn)がクライアント文字コードで未定義の場合,「◆Unnnn◆」に変換する。
    UTF-8上で4バイトとなる文字の場合は,サロゲートペアの「◆Unnnn◆◆Unnnn◆」に変換する。

    UTF-8上で4バイトとなる文字の場合は,サロゲートペアの「◆Unnnn◆◆Unnnn◆」に変換する。
    "◆U3402◆"→"㐂"(文字コード"U+3402",
    "◆U4E9C◆"→"亜"(文字コード"U+4E9C",
    "◆U5000◆"→"倀"(文字コード"U+5000",
    "◆UD840◆◆UDC00◆"→"𰀀"(文字コード"U+20000",
    "㐂"(文字コード"U+3402", , JISX0213(1-14-3))→"◆U3402◆"
    "倀"(文字コード"U+5000", , JISX0212(17-41), JISX2013(2-01-56))→"◆U5000◆"
    "𰀀"(文字コード"U+20000", )→"◆UD840◆◆UDC00◆"


    (参考)
    "亜"(文字コード"U+4E9C", , JISX0208(16-01))→"亜"(JISX0208の文字なので,UCS外字に変換されない)

    "𰀀"(文字コード"U+20000", )→"◆UD840◆◆UDC00◆"


    (参考)
    "亜"(文字コード"U+4E9C", , JISX0208(16-01))→"亜"(JISX0208の文字なので,UCS外字に変換されない)
    "㐂"(文字コード"U+3402", , JISX0213(1-14-3))→"㐂"(4バイトとならないので、UCS外字に変換されない)
    "倀"(文字コード"U+5000", , JISX0212(17-41), JISX2013(2-01-56))→"倀"(4バイトとならないので、UCS外字に変換されない)

    ▲ページTOPへ戻る
    漢字包摂と漢字統合インデックスについて
    通常の漢字については,新たな漢字包摂,漢字統合インデックスは定義しません。
    なお,既に実装済の漢字包摂に加え,(FA30-FAD9)及び(2F800-2FA1D)を追加します。 包摂先はUnicodeで規定されているとおりですが,下記の漢字については,従来の漢字包摂との整合性を取るため,下記のように定義します。
    包摂前 包摂前字形
    (通常fontがないため表示されません)
    本来の包摂先本来の包摂先字形訂正した包摂先訂正した包摂先字形
    2F807𿠇50024F75
    2F814𿠔51675185
    2F830𿠰537D5373
    2F862𿡢59EC59EB
    2F863𿡣5A1B5A2F
    2F882𿢂5DE25DE3
    2F8CB𿣋65E365E2
    2F8DF𿣟67FA67B4
    2F8F3𿣳6B726B73
    包摂定義追加分

    また,従来の包摂定義につきまして,下記の2つ定義について,修正します。

    包摂前包摂前字形現在の定義
    (修正前)
    現在の字形修正後の定義修正後の字形備考
    F95196FB964B 
    F94D6DDA6D996DDA→6D99の定義が存在するため
    包摂定義既存分(修正含)
    ▲ページTOPへ戻る
    UCS外字(サロゲートペア)と文字フォントについて
    UCS外字(サロゲートペア)と文字フォントについては、以下のようになっていますので、ご注意ください。
  • UTF8Eクライアントと文字フォントについて
    クライアントに文字フォントがインストールされていない場合,文字の表示がされません。WindowsXPなど、フォントのないクライアントはUTF8をそのままご利用ください。

  • サロゲートペアから文字を調べる方法について
    JISクライアント、UTF8クライアントではサロゲートペアで文字が表示されます。
    文字コードの計算方法は以下のとおりです。サロゲートペアは,1つ目が"D8"~"DB",2つ目が"DC"~"DF"で始まります。
    1. 16進数を2進数にし,16ビットのコードにする。
    2. それぞれの最上位の6ビットを削り,10ビットにする。(削るビットは"110110","110111"になります)
    3. 結合し,20ビットにする。
    4. 2進数を16進数にする。
    5. "10000"を加える。

    算出された文字コードはUnihan等で実際の文字を確認できます。

    例:◆UD840◆◆UDC0B◆
    1. 1101 1000 0100 0000, 1101 1100 0000 1011
    2. 00 0100 0000, 00 0000 1011
    3. 0001 0000 0000 0000 1011
    4. 1000B
    5. 2000B
    "2000B"は,"𰀋"(JISX0213:1-14-2, )になります。
  • ▲ページTOPへ戻る
    便利なツール
  • Unihan Database
  • サロゲートペア変換ツール excel
  • 参考資料
    Windows Vista関係
  • Windows Vista等でのクライアント利用へのCAT/ILLサーバの対応(NACSIS-CAT/ILLニュースレター20号)
  • Windows Vista等におけるクライアント利用上の御注意(JIS漢字第3,第4水準の入力環境)(NACSIS-CAT/ILLニュースレター19号)
  • 包摂文字定義関係
  • 「JIS X 0208」の包摂規準を適用する漢字 (目録情報の基準 第4版 付録1)
  • 平成15年度CAT/ILLシステムの改造予定(NACSIS-CAT/ILLニュースレター13号)
  • 包摂文字定義の追加(NACSIS-CAT/ILLニュースレター13号 付録1.3)
  • NACSIS-CAT/ILLシステムの改造について(NACSIS-CAT/ILLニュースレター17号 2006.3.31)
  • 包摂文字定義の追加(NACSIS-CAT/ILLニュースレター17号 付録3.3)
  • ▲ページTOPへ戻る
    最終更新日: 2009年3月2日