トップ > システムデータ記述手引 > 使用可能文字種

使用可能文字種

本システムは,一般的なパーソナルコンピュータやワークステーションでデータ作成を可能とするため, それらで通常入力できる文字種のみを使用対象文字としています。
具体的には,1byteカナを除いたJIS X 0201(7ビット及び8ビットの情報交換用符号化文字集合。 いわゆるASCII文字)と,JIS X 0208(7ビット及び8ビットの2バイト情報交換用符号化漢字集合。 いわゆる第一水準漢字と第二水準漢字)を使用対象文字としています。
1byteカナの定義は「」です。
入力が可能でも,JIS X 0212(情報交換用漢字符号--補助漢字。いわゆる補助漢字)と, JIS X 0213(7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合。いわゆる第三水準漢字と第四水準漢字), JIS X 0221-1(国際符号化文字集合(UCS)--第1部:体系及び基本多言語面。いわゆるUCS)は使用対象文字としません。
データは原則として,記事の記載どおりに記述しますが, 文字の書体(イタリック,ボールド,活字体,筆記体等)の違いは無視して記述します。
また,文字列に付けられた下線も無視して記述します。

日本語

日本語(漢字,かな,カナ)は,2bytes(いわゆる全角)を使用して記述します。
カナの1byte文字(いわゆる半角カタカナ)は使用してはいけません。
1byteにも2bytesにも両方含まれる以下の記号は,2bytesの文字を使用します。
それ以外の記号は,1byteで記述します。

文字 名称 JISコード
句点 A1
始めかぎ括弧 A2
終わりかぎ括弧 A3
読点 A4
中点 A5
長音記号 B0
濁点 DE
半濁点 DF

旧字・異体字は,JIS第一水準,第二水準内の文字であれば,情報源に記載のとおりに記述します。
もしなければ新字に置き換えて入力します。
置き換えられない文字は,「[ ](角かっこ)」でそのカナヨミを括って記述します。

例)
國學院大學 → 國學院大學
橋 (梯子高) → 高橋

中国語,韓国・朝鮮語

中国語,韓国語,朝鮮語で記述された部分は,以下のいずれかの方法で記述してください。

1.中国語の簡体字は,JIS第一水準,第二水準内の文字に置き換えて記述
2.漢字形あるいは日本語形への翻訳形で記述
3.欧文形への標準的な翻字法に従った翻字法で記述

論文名に対する日本語よみや,ローマ字による翻字(ピンイン等)を記述する場合は,「論文名よみ」項目に記述します。ローマ字翻字を日本語よみに併記する場合は,日本語よみの後ろに「( )(丸かっこ)」で括って記述します。

日本語以外の言語

英字と数字,記号は,原則として1byte(いわゆる半角)を使用で記述します。
行末の継続を意味する「-(ハイフン)」(いわゆるハイフネーション)は適用しません。
ウムラウト,アクサンなどの欧文の音標符号は無視して記述します。

ローマ字以外の欧文(キリル文字・ギリシャ文字)

キリル文字(ロシア文字),ギリシャ文字は,JIS規格にある文字です。従って,2bytesで記事の記載どおりに記述します。ただし,ドイツ語のエスツェットは「SS」に置き換えて記述します。

例)
Βατραχοι of Aristophanes

特殊な合成文字,記号

次に掲げる記号類は,入力はできるものの,JIS外文字になりますので,置き換えて記述します。
いわゆる機種依存文字に当たるものが該当します。

1. ローマ数字は,アルファベットのI,V,Xを使用して記述します。
例)
U → II
[ → VIII


2. ○つき文字は,「()(丸かっこ)」で中の文字を括って記述します。
例)
@ → (1)
→ (上)

3. カッコ「( )」つきの2bytes1文字は,「()(丸かっこ)」で中の文字を括って記述します。結果的に3文字になります。
例)

→ (株)

また,数式などに含まれる,上付文字や合成文字は,次のように置き換えて記述します。

上付文字や合成文字の置き換え例

1byteカナ定義
本システムにおける1byteカナは,JIS X 0201で定義される,\xA1-\xDFの文字とします。
具体的には以下の文字です。

。 「 」 、 ・ ヲ ァ ィ ゥ ェ ォ ャ ュ ョ ッ ー ア イ ウ エ オ カ キ ク ケ コ サ シ ス セ ソ

タ チ ツ テ ト ナ ニ ヌ ネ ノ ハ ヒ フ ヘ ホ マ ミ ム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ヲ ン ゙ ゚

使用禁止文字

以下の文字を,使用禁止文字とします。記述した場合はエラーになります。
・シフトJISコード\x00A1-\x00DF,\x8740-\x879Cの範囲の文字。
 日本語EUCでは\x8EA1-\x8EDF,\xADA1-\xADFCの範囲で,
 いわゆる半角カナ,丸付き数字,ローマ数字,特殊記号等などの機種依存文字を指します。
 「特殊な合成文字,記号」で置き換え記述をする対象文字です。
・3バイト日本語EUCに該当する文字。JIS X 0212で定義されている文字を指します。


ページの先頭へ