ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明します。
1.アラビア数字、及びローマ字(2バイトコード)
2.EXC文字(2バイトコード)
3.踊り文字(1バイトコード/2バイトコード)
4.デリミタ(1バイトコード/2バイトコード)
5.ストップワード
1、2は、データの表示の際に特別な扱いをされる文字種です。
1は、NVT2バイトコード文字ですが、他の2バイトコード文字とは異なり、NVT1バイトコード文字にも対応する文字が存在します。
目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用されます。このため、これらの2バイトコード文字は、検索されたレコードのデータ中に現れることはありません。
2は、さまざまな言語で記述された文献の目録作業を行う際、表記どおりの記録を可能にするために設計された文字種です。これらの文字は、参加組織側システム、または端末によって表示方法が異なります(2バイトコードでありながら半角表示が可能な端末があります)。
また、2〜5は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種です。
検索業務においては、これらの特殊文字・記号を含め、レコードのデータ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となります。
アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができます。
踊り文字は、単独で語を構成することはできませんが、語の構成要素にはなり得ます (ただし、「◆」を除き、語の先頭に位置することはありません)。
デリミタは、語の構成要素になることはなく、語と語の区切りとして機能します。
ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことです。
以下の表に、目録システムにおいて使用される文字の種類を示します。
目録システム用文字セット
| 単独で語を 構成できるもの | 踊り文字 | デリミタ | 絵文字数 | ||
| NVT1バイトコード (JIS X 0201-1997) | 158 | ||||
| アラビア数字(数字) | 10 | - | - | 10 | |
| ローマ字(ラテン文字) | 52 | - | - | 52 | |
| カタカナ(片仮名) | 55 | - | - | 55 | |
| 記号 | - | 5 | 36 | 41 | |
| NVT2バイトコード (JIS X 0208-1997) | 6,877 | ||||
| アラビア数字(数字) | 10* | - | - | 10 | |
| ローマ字(ラテン文字) | 52* | - | - | 52 | |
| カタカナ(片仮名) | 86 | - | - | 86 | |
| ひらがな(平仮名) | 83 | - | - | 83 | |
| ギリシャ文字 | 48 | - | - | 48 | |
| (ギリシア文字) | |||||
| ロシア文字(キリール文字) | 66 | - | - | 66 | |
| 漢字 | 6,355 | - | - | 6,355 | |
| 記号 | 1 | 13+ | 133+ | 147 | |
| 累計素片 | - | - | 32 | 32 | |
| NVT2バイトコード (EXC文字) | 691 | ||||
| 音標符号 | - | - | 29 | 29 | |
| 特殊アルファベット | 23 | - | 1 | 24 | |
| 音標符号付ローマ字 | 535 | - | - | 535 | |
| 二重音標符号付ローマ字 | 58 | - | - | 58 | |
| 音標符号付特殊 アルファベット | 39 | - | - | 39 | |
| 制御文字 | - | - | 6 | 6 | |
| 合計 | 7,471 | 18 | 237 | 7,726 | |
注)
EXC文字は、検索業務においては、対応するローマ字と同一の文字とみなされます(ただし、音標符号、および制御文字を除く)。 ファイル検索においては、EXC文字を入力しても、対応するローマ字を入力しても同様の結果が得られます。
ただし、対応するローマ字の文字列がストップワードと同一となるような場合は、EXC文字をそのまま入力することによってのみファイル検索が可能です。
また、特にEXC文字をデータ中に含むレコードだけを検索するためには、文字列検索において検索キーの特定化を行う必要があります。
ファイル検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つレコードが検索されます(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。
しかし、踊り文字はAKEY作成の際には除去されます。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理されます。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要があります(ただし、濁点、および半濁点は除去の対象外です)。
以下の表に、踊り文字一覧を示します。
1. 1バイトコード(5個)
| NVTコード | 表示形 | 名称 |
| 27 | ‘ | アポストロフィ、アクサンテギュ |
| 2D | − | 負記号、減算記号、ハイフン、マイナス |
| B0 | − | 長音記号 |
| DE | ゛ | 濁点 |
| DF | ゜ | 半濁点 |
2. 2バイトコード(13個)
| NVTコード | 表示形 | 名称 |
| 212B | ゛ | 濁点 |
| 212C | ゜ | 半濁点 |
| 2133 | ヽ | カタカナ繰り返し記号 |
| 2134 | ヾ | カタカナ繰り返し記(濁音) |
| 2135 | ゝ | ひらがな繰り返し記号 |
| 2136 | ゞ | ひらがな繰り返し記号(濁音) |
| 2139 | 々 | 繰り返し記号 |
| 213C | − | 長音記号 |
| 213D | − | ダッシュ |
| 213E | - | ハイフン |
| 2147 | ’ | 右シングル引用符、アポストロフィ |
| 215D | − | 負記号、減算記号、マイナス |
| 2221 | ◆ | 黒菱形 |
ファイル検索においては、デリミタは検索の対象となりません。
デリミタ(空白は除きます)をデータ中に含むレコードを検索するためには、文字列検索において検索キーの特定化を行う必要があります。
1. 1バイトコード(36個)
| NVTコード | 表示形 | 名称 |
| 20 | 間隔、空白、スペース | |
| 21 | ! | 感嘆符 |
| 22 | “ | 引用符、ウムラウト |
| 23 | # | 番号記号、井げた、シャープ |
| 24 | $ | ドル記号 |
| 25 | % | パーセント |
| 26 | & | アンパサンド |
| 28 | ( | 始め小括弧、始め丸括弧 |
| 29 | ) | 終わり小括弧、終わり丸括弧 |
| 2A | * | 星印、アスタリスク |
| 2B | + | 正記号、加算記号、プラス |
| 2C | , | コンマ |
| 2E | . | ピリオド |
| 2F | / | 斜線、スラント、スラッシュ |
| 3A | : | コロン |
| 3B | ; | セミコロン |
| 3C | < | 不等号(より小さい) |
| 3D | = | 等号、イコール |
| 3E | > | 不等号(より大きい) |
| 3F | ? | 疑問符 |
| 4A | @ | 単価記号、アットマーク |
| 5B | [ | 始め大括弧、始め角括弧 |
| 5C | \ | 円記号 |
| 5D | ] | 終わり大括弧、終わり角括弧 |
| 5E | ^ | 論理否定、アクサンシルコンフレックス |
| 5F | _ | アンダーライン |
| 6A | ´ | アクセント、アクサングラーブ??? |
| 7B | { | 始め中括弧 |
| 7C | | | 縦線、ストローク |
| 7D | } | 終わり中括弧 |
| 7E |  ̄ | オーバーライン |
| A1 | 。 | 句点 |
| A2 | 「 | 始めかぎ括弧 |
| A3 | 」 | 終わりかぎ括弧 |
| A4 | 、 | 読点 |
| A5 | ・ | 中点 |
2. 2バイトコード(201個)
| NVTコード | 表示形 | 名称 |
| 2121 | 間隔、空白、スペース | |
| 2122 | 、 | 読点 |
| 2123 | 。 | 句点 |
| 2124 | , | コンマ |
| 2125 | . | ピリオド |
| 2126 | ・ | 中点 |
| 2127 | : | コロン |
| 2128 | ; | セミコロン |
| 2129 | ? | 疑問符 |
| 212A | ! | 感嘆符 |
| 212D | ´ | アクサンテギュ |
| 212E | ` | アクサングラーブ |
| 212F | ¨ | ウムラウト |
| 2130 | ^ | アクサンシルコンフレックス |
| 2131 |  ̄ | オーバーライン |
| 2132 | _ | アンダーライン |
| 2137 | 〃 | 同じく記号 |
| 2138 | 仝 | 同上記号 |
| 213A | 〆 | しめ |
| 21dF | / | 斜線、スラント、スラッシュ |
| 2140 | \ | 逆斜線、バックスラント |
| 2141 | 〜 | 波ダッシュ |
| 2142 | ‖ | 双柱、ダブルストローク |
| 2143 | | | 縦線、ストローク |
| 2144 | … | 三点リーダ |
| 2145 | ‥ | 二点リーダ |
| (括弧記号) | ||
| 2146 | ‘ | 左シングル引用符 |
| 2148 | “ | 左ダブル引用符 |
| 2149 | ” | 右ダブル引用符 |
| 214A | ( | 始め小括弧、始め丸括弧 |
| 214B | ) | 終わり小括弧、終わり丸括弧 |
| 214C | 〔 | 始め亀甲括弧 |
| 214D | 〕 | 終わり亀甲括弧 |
| 214E | [ | 始め大括弧、始め角括弧 |
| 214F | ] | 終わり括弧、終わり角括弧 |
| 2150 | { | 始め中括弧 |
| 2151 | } | 終わり中括弧 |
| 2152 | < | 始め山括弧 |
| 2153 | > | 終わり山括弧 |
| 2154 | ≪ | 始め二重山括弧 |
| 2155 | ≫ | 終わり二重山括弧 |
| 2156 | 「 | 始めかぎ括弧 |
| 2157 | 」 | 終わりかぎ括弧 |
| 2158 | 『 | 始め二重かぎ括弧 |
| 2159 | 』 | 終わり二重かぎ括弧 |
| 215A | 【 | 始めすみ付き括弧 |
| 215B | 】 | 終わりすみ付き括弧 |
| (学術記号) | ||
| 215C | + | 正符号、加算記号、プラス |
| 215E | ± | 加減算記号、プラスマイナス |
| 215F | × | 乗算記号、かける |
| 2160 | ÷ | 除算記号、わる |
| 2161 | = | 等号、イコール |
| 2162 | ≠ | 等号否定 |
| 2163 | < | 不等号(より小さい) |
| 2164 | > | 不等号(より大きい) |
| 2165 | ≦ | より小さいか又は等しい |
| 2166 | ≧ | より大きいか又は等しい |
| 2167 | ∞ | 無限大 |
| 2168 | ∴ | ゆえに |
| 2169 | ♂ | 雄記号 |
| 216A | ♀ | 雌記号 |
| 223A | ∈ | 属する |
| 223B | ∋ | 元として含む |
| 223C | ⊆ | 部分集合 |
| 223D | ⊇ | 部分集合を元として含む |
| 223E | ⊂ | 真部分集合 |
| 223F | ⊃ | 真部分集合を元として含む |
| 2240 | ∪ | 合併集合 |
| 2241 | ∩ | 共通集合 |
| 224A | ∧ | 及び(合接) |
| 224B | ∨ | 又は(隣接) |
| 224C | ¬ | 否定 |
| 224D | ⇒ | ならば(含意) |
| 224E | ⇔ | 同値 |
| 224F | ∀ | 全ての(普通限定子) |
| 2250 | ∃ | 存在する(存在限定子) |
| 225C | ∠ | 角 |
| 225D | ⊥ | 垂直 |
| 225E | ⌒ | 弧 |
| 225F | ∂ | デル、ラウンドディー |
| 2260 | ∇ | ナブラ |
| 2261 | ≡ | 常に等しい、合同 |
| 2262 | ≒ | ほとんど等しい |
| 2263 | ≪ | 非常に小さい |
| 2264 | ≫ | 非常に大きい |
| 2265 | √ | 根号、ルート |
| 2266 | ∽ | 相似 |
| 2267 | ∝ | 比例 |
| 2268 | ∵ | なぜならば |
| 2269 | ∫ | 積分記号 |
| 226A | ∬ | 二重積分記号 |
| (単位記号) | ||
| 216B | ° | 度 |
| 216C | ′ | 分 |
| 216D | ″ | 秒 |
| 216E | ℃ | セ氏度記号 |
| 216F | ¥ | 円記号 |
| 2170 | $ | ドル記号 |
| 2171 | ¢ | セント記号 |
| 2172 | £ | ポンド記号 |
| 2173 | % | パーセント |
| 2272 | Å | オングストローム |
| 2273 | ‰ | パーミル |
| (一般記号) | ||
| 2174 | # | 番号記号、井げた |
| 2175 | & | アンパサンド |
| 2176 | * | 星印、アスタリスク |
| 2177 | @ | 単価記号 |
| 2278 | § | 節記号 |
| 2279 | ☆ | 白星 |
| 227A | ★ | 黒星 |
| 217B | ○ | 白丸 |
| 217C | ● | 黒丸 |
| 217D | ◎ | 二重丸 |
| 217E | ◇ | 菱形 |
| 2222 | □ | 四角 |
| 2223 | ■ | 黒四角 |
| 2224 | △ | 三角 |
| 2225 | ▲ | 黒三角 |
| 2226 | ▽ | 逆三角 |
| 2227 | ▼ | 逆黒三角 |
| 2228 | ※ | 米印 |
| 2229 | 〒 | 郵便記号 |
| 222A | → | 右向矢印 |
| 222B | ← | 左向矢印 |
| 222C | ↑ | 上向矢印 |
| 222D | ↓ | 下向矢印 |
| 222E | 〓 | げた記号 |
| 2274 | ♯ | シャープ |
| 2275 | ♭ | フラット |
| 2276 | ♪ | 音符 |
| 2277 | † | ダガー |
| 2278 | ‡ | ダブルダガー |
| 2279 | ¶ | 段落記号 |
| 227E | ○ | 合成用丸 |
| (罫線素片) | ||
| 2821 | ─ | 細線素片 |
| 2822 | │ | 〃 |
| 2823 | ┌ | 〃 |
| 2824 | ┐ | 〃 |
| 2825 | ┘ | 〃 |
| 2826 | └ | 〃 |
| 2827 | ├ | 〃 |
| 2828 | ┬ | 〃 |
| 2829 | ┤ | 〃 |
| 282A | ┴ | 〃 |
| 282B | ┼ | 〃 |
| 282C | ━ | 太線素片 |
| 282D | ┃ | 〃 |
| 282E | ┏ | 〃 |
| 282F | ┓ | 〃 |
| 2830 | ┛ | 〃 |
| 2831 | ┗ | 〃 |
| 2832 | ┣ | 〃 |
| 2833 | ┳ | 〃 |
| 2834 | ┫ | 〃 |
| 2835 | ┻ | 〃 |
| 2836 | ╋ | 〃 |
| 2837 | ┠ | 細線太線混在素片 |
| 2838 | ┯ | 〃 |
| 2839 | ┨ | 〃 |
| 283A | ┷ | 〃 |
| 283B | ┿ | 〃 |
| 283C | ┝ | 〃 |
| 283D | ┰ | 〃 |
| 283E | ┥ | 〃 |
| 283F | ┸ | 〃 |
| 2840 | ╂ | 〃 |
| (EXC文字:音標記号) | ||
| DF22 | Pseudo-question | |
| DF23 | Grave | |
| DF24 | Acute | |
| DF25 | Circumflex | |
| DF26 | Tilde | |
| DF27 | Macron | |
| DF28 | Breve | |
| DF29 | Superior-dot | |
| DF2A | Umlaut, Diaeresis | |
| DF2B | Hacek | |
| DF2C | Circle-above, Angstrom | |
| DF2D | Ligature-first | |
| DF2E | Ligature-second | |
| DF2F | High-comma-off-center | |
| DF30 | Double-acute | |
| DF31 | Candrbindu | |
| DF32 | Cedilla | |
| DF33 | Right-hook | |
| DF34 | Dot-below-character | |
| DF35 | Double-dot-below-character | |
| DF36 | Circle-below-character | |
| DF37 | Double-underscore | |
| DF38 | Underscore | |
| DF39 | Left-hook, Tall | |
| DF3A | Right-cedilla | |
| DF3B | Upadhmaniya | |
| DF3C | Double-tilde-first | |
| DF3D | Double-tilde-first | |
| DF3E | High-comma-centered | |
| (EXC文字:特殊アルファベット) | ||
| DF21 | High-comma-centered | |
| (EXC文字:制御記号) | ||
| EE21 | 上つき開始 | |
| EE22 | 上つき終了 | |
| EE23 | 下つき開始 | |
| EE24 | 下つき終了 | |
| EE25 | 合成開始 | |
| EE26 | 合成終了 | |
ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指します。
これらの語は、次の理由により、ストップワードに指定されています。
以下の表に、ストップワード一覧を示します。
本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用されます。
これらの語に音標符号が付いている場合は、ストップワードではありません。また、「FUR」及び「UBER」は、ストップワードではありません。
| A | DEL | I | POUR |
| AC | DELLA | IL | PRI |
| AF | DELLE | IM | SI |
| AL | DELLO | IN | SUR |
| ALE | DEM | INS | TE |
| ALS | DEN | INTO | THE |
| AM | DER | IZ | TO |
| AMONG | DES | JA | U |
| AN | DET | LA | ÜBER |
| AND | DI | LAS | UN |
| ANS | DIE | LE | UND |
| AS | DIN | LES | UNE |
| AT | DO | LO | UPON |
| AU | DU | LOS | V |
| AUF | DURCH | MIT | VAN |
| AUFS | DURCHS | NA | VE |
| AUS | E | NACH | VED |
| AUX | EIN | O | VON |
| AV | EINE | OCH | VOOR |
| AVEC | EINEM | ODER | WITH |
| BEFORE | EINER | OF | Y |
| BEI | EL | OG | Z |
| BEIM | EM | OM | ZA |
| BETWEEN | EN | ON | ZU |
| BY | ENTRE | OP | ZUM |
| CON | ES | OR | ZUR |
| DA | ET | OU | |
| DANS | ETC | OVER | |
| DAS | FOR | PARA | |
| DE | FRA | PER | |
| DEGLI | FÜR | PO | |
| DEI | HET | POR |