目録システム利用マニュアル


[目次]
[前ページ] 付.C インデクス作成仕様
[索引]

付録.D 特殊文字・記号・ストップワード

 ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明します。

 1.アラビア数字、及びローマ字(2バイトコード)

 2.EXC文字(2バイトコード)

 3.踊り文字(1バイトコード/2バイトコード)

 4.デリミタ(1バイトコード/2バイトコード)

 5.ストップワード

 1、2は、データの表示の際に特別な扱いをされる文字種です。

 1は、NVT2バイトコード文字ですが、他の2バイトコード文字とは異なり、NVT1バイトコード文字にも対応する文字が存在します。

 目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用されます。このため、これらの2バイトコード文字は、検索されたレコードのデータ中に現れることはありません。

ヒント

 2は、さまざまな言語で記述された文献の目録作業を行う際、表記どおりの記録を可能にするために設計された文字種です。これらの文字は、参加組織側システム、または端末によって表示方法が異なります(2バイトコードでありながら半角表示が可能な端末があります)。

 また、2〜5は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種です。

 検索業務においては、これらの特殊文字・記号を含め、レコードのデータ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となります。

 アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができます。

 踊り文字は、単独で語を構成することはできませんが、語の構成要素にはなり得ます (ただし、「◆」を除き、語の先頭に位置することはありません)。

 デリミタは、語の構成要素になることはなく、語と語の区切りとして機能します。

 ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことです。

 以下の表に、目録システムにおいて使用される文字の種類を示します。

目録システム用文字セット

 単独で語を
構成できるもの
踊り文字デリミタ絵文字数
NVT1バイトコード
(JIS X 0201-1997)
   158
 アラビア数字(数字)10--10
ローマ字(ラテン文字)52--52
カタカナ(片仮名)55--55
記号-53641
NVT2バイトコード
(JIS X 0208-1997)
   6,877
 アラビア数字(数字)10*--10
ローマ字(ラテン文字)52*--52
カタカナ(片仮名)86--86
ひらがな(平仮名)83--83
ギリシャ文字48--48
(ギリシア文字)    
ロシア文字(キリール文字)66--66
漢字6,355--6,355
記号113+133+147
累計素片--3232
NVT2バイトコード
(EXC文字)
   691
 音標符号--2929
特殊アルファベット23-124
音標符号付ローマ字535--535
二重音標符号付ローマ字58--58
音標符号付特殊
アルファベット
39--39
制御文字--66
合計7,471182377,726

注)

■EXC文字

 EXC文字は、検索業務においては、対応するローマ字と同一の文字とみなされます(ただし、音標符号、および制御文字を除く)。 ファイル検索においては、EXC文字を入力しても、対応するローマ字を入力しても同様の結果が得られます。

 ただし、対応するローマ字の文字列がストップワードと同一となるような場合は、EXC文字をそのまま入力することによってのみファイル検索が可能です。

 また、特にEXC文字をデータ中に含むレコードだけを検索するためには、文字列検索において検索キーの特定化を行う必要があります。

■踊り文字

 ファイル検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つレコードが検索されます(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。

 しかし、踊り文字はAKEY作成の際には除去されます。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理されます。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要があります(ただし、濁点、および半濁点は除去の対象外です)。

 以下の表に、踊り文字一覧を示します。

1. 1バイトコード(5個)

NVTコード表示形名称
27アポストロフィ、アクサンテギュ
2D負記号、減算記号、ハイフン、マイナス
B0長音記号
DE濁点
DF半濁点

2. 2バイトコード(13個)

NVTコード表示形名称
212B濁点
212C半濁点
2133カタカナ繰り返し記号
2134カタカナ繰り返し記(濁音)
2135ひらがな繰り返し記号
2136ひらがな繰り返し記号(濁音)
2139繰り返し記号
213C長音記号
213Dダッシュ
213E-ハイフン
2147右シングル引用符、アポストロフィ
215D負記号、減算記号、マイナス
2221黒菱形

■デリミタ

 ファイル検索においては、デリミタは検索の対象となりません。

 デリミタ(空白は除きます)をデータ中に含むレコードを検索するためには、文字列検索において検索キーの特定化を行う必要があります。

1. 1バイトコード(36個)

NVTコード表示形名称
20 間隔、空白、スペース
21!感嘆符
22引用符、ウムラウト
23#番号記号、井げた、シャープ
24$ドル記号
25%パーセント
26&アンパサンド
28(始め小括弧、始め丸括弧
29)終わり小括弧、終わり丸括弧
2A*星印、アスタリスク
2B+正記号、加算記号、プラス
2C,コンマ
2E.ピリオド
2F/斜線、スラント、スラッシュ
3A:コロン
3B;セミコロン
3C<不等号(より小さい)
3D=等号、イコール
3E>不等号(より大きい)
3F?疑問符
4A@単価記号、アットマーク
5B[始め大括弧、始め角括弧
5C\円記号
5D]終わり大括弧、終わり角括弧
5E^論理否定、アクサンシルコンフレックス
5F_アンダーライン
6A´アクセント、アクサングラーブ???
7B{始め中括弧
7C|縦線、ストローク
7D}終わり中括弧
7Eオーバーライン
A1句点
A2始めかぎ括弧
A3終わりかぎ括弧
A4読点
A5中点

2. 2バイトコード(201個)

NVTコード表示形名称
2121 間隔、空白、スペース
2122読点
2123句点
2124,コンマ
2125.ピリオド
2126中点
2127:コロン
2128;セミコロン
2129?疑問符
212A!感嘆符
212D´アクサンテギュ
212Eアクサングラーブ
212F¨ウムラウト
2130アクサンシルコンフレックス
2131オーバーライン
2132_アンダーライン
2137同じく記号
2138同上記号
213Aしめ
21dF斜線、スラント、スラッシュ
2140逆斜線、バックスラント
2141波ダッシュ
2142双柱、ダブルストローク
2143縦線、ストローク
2144三点リーダ
2145二点リーダ
(括弧記号)
2146左シングル引用符
2148左ダブル引用符
2149右ダブル引用符
214A始め小括弧、始め丸括弧
214B終わり小括弧、終わり丸括弧
214C始め亀甲括弧
214D終わり亀甲括弧
214E[始め大括弧、始め角括弧
214F]終わり括弧、終わり角括弧
2150始め中括弧
2151終わり中括弧
2152始め山括弧
2153終わり山括弧
2154始め二重山括弧
2155終わり二重山括弧
2156始めかぎ括弧
2157終わりかぎ括弧
2158始め二重かぎ括弧
2159終わり二重かぎ括弧
215A始めすみ付き括弧
215B終わりすみ付き括弧
(学術記号)
215C正符号、加算記号、プラス
215E±加減算記号、プラスマイナス
215F×乗算記号、かける
2160÷除算記号、わる
2161等号、イコール
2162等号否定
2163不等号(より小さい)
2164不等号(より大きい)
2165より小さいか又は等しい
2166より大きいか又は等しい
2167無限大
2168ゆえに
2169雄記号
216A雌記号
223A属する
223B元として含む
223C部分集合
223D部分集合を元として含む
223E真部分集合
223F真部分集合を元として含む
2240合併集合
2241共通集合
224A及び(合接)
224B又は(隣接)
224C¬否定
224Dならば(含意)
224E同値
224F全ての(普通限定子)
2250存在する(存在限定子)
225C
225D垂直
225E
225Fデル、ラウンドディー
2260ナブラ
2261常に等しい、合同
2262ほとんど等しい
2263非常に小さい
2264非常に大きい
2265根号、ルート
2266相似
2267比例
2268なぜならば
2269積分記号
226A二重積分記号
(単位記号)
216B°
216C
216D
216Eセ氏度記号
216F円記号
2170ドル記号
2171¢セント記号
2172£ポンド記号
2173パーセント
2272オングストローム
2273パーミル
(一般記号)
2174番号記号、井げた
2175アンパサンド
2176星印、アスタリスク
2177単価記号
2278§節記号
2279白星
227A黒星
217B白丸
217C黒丸
217D二重丸
217E菱形
2222四角
2223黒四角
2224三角
2225黒三角
2226逆三角
2227逆黒三角
2228米印
2229郵便記号
222A右向矢印
222B左向矢印
222C上向矢印
222D下向矢印
222Eげた記号
2274シャープ
2275フラット
2276音符
2277ダガー
2278ダブルダガー
2279段落記号
227E合成用丸
(罫線素片)
2821細線素片
2822
2823
2824
2825
2826
2827
2828
2829
282A
282B
282C太線素片
282D
282E
282F
2830
2831
2832
2833
2834
2835
2836
2837細線太線混在素片
2838
2839
283A
283B
283C
283D
283E
283F
2840
(EXC文字:音標記号)
DF22Pseudo-question
DF23Grave
DF24Acute
DF25Circumflex
DF26Tilde
DF27Macron
DF28Breve
DF29Superior-dot
DF2AUmlaut, Diaeresis
DF2BHacek
DF2CCircle-above, Angstrom
DF2DLigature-first
DF2ELigature-second
DF2FHigh-comma-off-center
DF30Double-acute
DF31Candrbindu
DF32Cedilla
DF33Right-hook
DF34Dot-below-character
DF35Double-dot-below-character
DF36Circle-below-character
DF37Double-underscore
DF38Underscore
DF39Left-hook, Tall
DF3ARight-cedilla
DF3BUpadhmaniya
DF3CDouble-tilde-first
DF3DDouble-tilde-first
DF3EHigh-comma-centered
(EXC文字:特殊アルファベット)
DF21High-comma-centered
(EXC文字:制御記号)
EE21上つき開始
EE22上つき終了
EE23下つき開始
EE24下つき終了
EE25合成開始
EE26合成終了

■ストップワード

 ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指します。

 これらの語は、次の理由により、ストップワードに指定されています。

 以下の表に、ストップワード一覧を示します。

 本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用されます。

 これらの語に音標符号が付いている場合は、ストップワードではありません。また、「FUR」及び「UBER」は、ストップワードではありません。

ADELIPOUR
ACDELLAILPRI
AFDELLEIMSI
ALDELLOINSUR
ALEDEMINSTE
ALSDENINTOTHE
AMDERIZTO
AMONGDESJAU
ANDETLAÜBER
ANDDILASUN
ANSDIELEUND
ASDINLESUNE
ATDOLOUPON
AUDULOSV
AUFDURCHMITVAN
AUFSDURCHSNAVE
AUSENACHVED
AUXEINOVON
AVEINEOCHVOOR
AVECEINEMODERWITH
BEFOREEINEROFY
BEIELOGZ
BEIMEMOMZA
BETWEENENONZU
BYENTREOPZUM
CONESOR ZUR
DAETOU
DANSETCOVER
DASFORPARA
DEFRAPER
DEGLIFÜRPO
DEIHETPOR

[ページの先頭]