イベント / EVENT

平成23年度 第4回 Q&A

第4回 2011年10月5日(水)

漢字コードの迷信を打破する!
インターネット時代の文字コード

坊農 真弓(国立情報学研究所 教授)

講演当日に頂いたご質問への回答(全33件)

※回答が可能な質問のみ掲載しています。

ISOのUCSユニコードが2011年に漢字が75616字に増えたようですが、日本のJIS規格の「JIS X 0221」ではどうなっているのでしょうか。21140字のままですか?

JIS X 0221は、2007年版が最新で基本的にはISO 10646:2003版に対応しています。従って71226漢字だと思いますが、細かい確認はしていません。

資料14P JIS X 0212についてどうして反対されたのでしょうか? その際の問題はその後の文字コード改訂では解決されたのでしょうか?

理由は二つあります。1)JISX0212は、最初1字種1字体の原則をたてたにもかかわらず、JISX0208:1983年版の字体の入れ替えに対する不満を吸収するため、原則が不明確なままこれらの字体を取り込んだこと。2)当時のOSで94x94文字の第2面をサポートすることは困難で、実用化の見通しが悪く、一方でISO10646の開発が始まった中で中途半端なJIS漢字コードを制定するのはかえって混乱のもとになると考えたこと。1)の方は、この講座で述べているように解決していません。2)の方はISO10646の普及によって解決したと言っていいでしょう。

どうしてISO10646 UCSの漢字コードは別の文字という扱いであったり同一文字という扱いであったりするのでしょうか?

大きくいえば、講演中で話したように「漢字についてはどの単位で文字と考えるか、の社会的合意が弱い」のが原因です。細かくは、文字ごとに事情があるわけですが、10646の漢字レパートリーを作ったとき、それまでに各国(中国、日本、韓国、、台湾)の標準コードで異なる文字としていたものはレパートリー中でも異なる文字とするという原則を立てました。この原則で別の文字扱いになったものが比較的多く、例えば「はしご高」と「口高」がそのひとつです。(当時の台湾の標準では、異なる文字としていたため分離された)。

(1)「エンコード」について:ビット列をどの値に変換するかの方式を「エンコード」という理解でよいですか?(2)文字とグリフの違いはどの程度まで許容するのか? (「斉」、「辺」など色々な字形がありますが、すべて同じ文字とするのか、しないのか)

(1)スライド7の説明で、言葉足らずでした。エンコードは文字(の内部コード値)をファイル上のビット列に変換することをいいます。逆はデコードといいます。スライド7の「エンコーディング」は、このビット列が、このエンコード方式でエンコードされたものとしてデコードするとこうなる、という意味の図です。
(2)許容範囲を示すのが「包摂基準」や「統合規則」です。

主題とズレるかもしれませんが・・・(1)なぜ複数の文字コードが混在する状況が続くのでしょうか?(2)今後も統一されることはないのでしょうか?

(1)(2)なぜ、世界中にいろいろな言語や、いろいろな文字があるのでしょうか?という質問に対する答えと同じです。多くのアプリケーションソフトが既存の文字コードを前提に作られています。これらがすべてなくなるという状況が来ない限り、不統一は続くでしょう。

(1)電子メールでたまに文字化けしますがなぜでしょうか?(2)国が指導して国内の文字コードを統一できないのでしょうか?(3)JISとISOの関係はなぜ統一できないのでしょうか? 俗字とは何でしょうか?

(1)大きくいえば、さまざまなエンコーディング方式があるためですが、これだけでは、細かい理由はわかりません。
(2)一国内ですむ話でもなく、強制法規化もできるとは思いません。
(3)JISX0221はISO10646と一致しています。JISX0208、JISX0213はISO10646との対応がとられていますが、旧来のエンコード方式を生かすためには必要です。
(4?)「俗字」という言葉は、多くの漢字字典で異体字関係を説明するために使われています。何を「俗字」とするかは個別の字典ごとに異なりますが、普通古くからは認められてこなかった字体をさします。

資料24P(及び17P)の字体(葛葛)はスクリーンと印刷物で異なっているようです。(スクリーンは葛で印刷物は葛)と左側の分。これはJISの改訂(例示字体の変更)の影響でしょうか?

はい、その通りです。フォントのバージョンの話は略しましたが、同じフォントでもバージョンにより字形が異なることがあります。講演では字形の異なりを示すために古いバージョンのフォントを使用していますが、当日配布物は気づかずに新しいバージョンのフォントを使用してしまったため、字形の異なりが示せませんでした。(ウェブページのスライドは正しくなっているはずです。)

アルファベットには筆記体とブロック体がございます。筆記体をすべて文字コードにしてしまってはきりがありません。漢字も同じではないでしょうか? ブロック体のg、gと2つあるように、あとは花文字くらいで、漢字も少数のブロック体を決めてはいけないのでしょうか?

文字とグリフを分離する考え方に立つことが解決方法です。ただ、漢字の場合ラテンアルファベットより、一つの文字に対するグリフのバリアントの数が(文字によっては)非常に多くなること、また組み合わせで膨大な数ができることが問題です。

ローマ字で公共システム(年金、パスポート、免許証など)を入力したほうがデータベースとしては一意の部分ができて強固ではないかと考えるのですが、この点どう考えられますか?(予算や人員などの点は度外視です。)

ローマ字化方式だけでも、百年以上の議論が決着しない状態なので、「一意」になるというのは幻想です。また、漢字表記が個人識別の重要な手段になっている(彰と明は別人とわかる)ことを考えると、社会的に多数が受け入れる方式にはなり得ないと考えます。

英語でいうグリフ、スクリプト、レター、キャラクタはどのように使い分ければよいのでしょうか?

グリフ、スクリプトは、講演中にお話ししたとおりです。「文字」に対し英語ではcharacter、letterの双方が使われますが、文字コードの世界での技術用語ではcharacterを使います。日常英語では、letterをアルファベット、characterを漢字などその他の文字という使い方をする場合もあります。

文字コードが変化する中で、外字の扱いを今後どうお考えですか? 無いという方向にすべきですか?

「外字」というのは「私用文字」のことと解しますが、閉じた世界でのみ使われるものです。ウェブなど他のシステムと交換するような場合には使われるべきではありません。

コンピュータの歴史上はまず、シングルバイトで始まり、日本語等のダブルバイトが後で付け足されたと理解されます。 アジアのコンピュータ人口が増えてきた今日、まずダブルバイトありきとしてシングルバイトはそのサブセットとすることは今後考えられますか? その場合のダブルバイトの文字の国(日本など)のメリットは?

現在のISO10646は、基本的に4バイト構成です。これをシングルバイト環境に適応させるためのエンコーディング方式がUTF-8です。日本のソフトウェア産業界が、1バイト文字2バイト文字の混用になれていたことは、よかった点、悪かった点ともにあると考えます。よかった点は、10646への切り替えを行った場合のソフトウェアの変更が比較的少なくすんだこと。悪かった点としては、言語ごとの蛸壺にはまって、全言語を扱おうという国際性をなかなかもてなかった点です。

ここ2、3年WEBサイトで見かける"ほにゃらら"(「から」と入力して変換→「~」)が逆のような形「  」になる現象を見かけました。時間の表示(ex.18:30   20:00)を確認するとき、とても違和感を覚えました。 これはどう理解すればよいのでしょうか?

これは、問題のあることで有名な文字です。事実関係の確認は行っていませんが、wikipedia日本語版の「波ダッシュ」の項目にある説明は、おそらく正しいのではないかと思います。

ひらがな、漢字はアルファベットに比べ少数派ですが、例えばアフリカに文字を導入する場合、ひらがな、漢字などの日本語を導入するのはどうでしょうか? アルファベットばかりが幅をきかせている気がします。

技術的問題よりは、政治的問題の方が大きそうですが。純粋に技術的に考えても、表語文字の漢字や、個別の音韻体系に特化した音節文字であるかなよりは、音素文字であるアルファベットの方が、多くの言語に適用する点では優れています。

日本語を使う上でおすすめの日本語アプリケーションソフトは何でしょうか?私は一太郎を使っており、Microsoft IMEより使いやすいと思っています。 フリーの良い日本語ソフトがあればよいと思っているのですが・・・

MicrosoftIMEと比べるなら一太郎ではなくATOKが対応しています。個人的な嗜好の問題も多く、個別の製品に対するコメントは控えます。ただ、フリーソフトの入力フロントエンドで、ATOKやMSIMEに肩を並べられるものは、私の個人的知識の範囲では知りません。

「野」と「埜」が同じだと思えません。理解できません。「埜」→「野」へ変化した経路を教えてください。

どちらがどちらに変化した、といえるケースではないようです。例えば、白川静「字統」を見てください。

資料34P「結論として3」は私も同意見です。 些細な違いを区別するのは無意味だと思います。 これを是正する策を生み出してください。

私は、国語政策を進める立場にはありませんから、ことあるごとにこのような声を上げることくらいしかできません。本日の講演も、そのひとつです。

(1)資料25P 我々は何をもって「一貫した」と考えるべきなのか。個々に残された筆跡から考えるしかないのでは?(2)資料34P 印刷業の工程の情報化、戸籍事務の情報化の立場から文字の差の合意をとるとするとどこに安定すると予想しますか?(3)資料26P 刻印式明朝や宋体に写したものから楷書に戻すところで生まれた異体字もあるのでは?(4)資料12P 日本語を離れてスクリプトがむちゃくちゃに読まれた例(山本弘著「喪われた惑星の遺産」、「SFM 2011年-8月号」のような)はあるのか。(5)UCSもX0221でJIS化されたのでは?Digital Reserchでなかった?

(1)ここで「一貫していない」と言っているのは、個別の文字/グリフに対して、字典ごとに文字としてのまとめ方(見出しの立て方と異体の示し方)が異なっているという意味です。
(2)現時点で予想はできません。
(3)それらを含めて「楷書形への写し方」と言っています。
(4)寡聞にして知りません。
(5)その通りです。ただ、現在なお「JISコード」と一般に言われているのはJIS X0208(状況によってJIS X0213を含む)であることがほとんどで、話を単純化するためJIS X0221UCSは省きました。

(1)全言語の文字を表現できる文字コードはあるか?(2)文章作成時にはどの文字コードを使用すればよいか。「難しい文字を使いすぎると一般人に分からないので、SHIFT-JISで表現できる文字に統一すべき」など

(1)ISO 10646 UCSは、それを目指しています。
(2)何をしたいかにもよりますが、技術的問題が少ないのはUTF-8でしょう。

PCで(例えばgoogleの検索Textboxで)文字を入力する時、どのような文字コードでメモリに保存されているのでしょうか?

ブラウザやOS、入力フロントエンドなどそれぞれの設定によって変わり得るのでこれとは言えませんが、Windowsで日本語環境を使っていれば、いわゆるshift-JISかISO10646UCS(UTF-16またはUTF-8)が普通でしょう。

漢字にある程度線引きをして共通認識として定着づけしても実害が少ないような気がしますがいかがでしょうか? ひらがな、カタカナにも同様な問題が絡んでいるのか、それとも別の問題があるのでしょうか?

現在、共通認識のないことが問題なのです。かなには、変体仮名問題ほかいくつかの問題がありますが、漢字ほど騒がれる問題ではありません。

JISコードには使われない字(ゆうれい漢字)がありますが削除されることはありますか?俗称ヤマイチオンナ

JISやISOの委員会が決めることですが、たぶん削除することはなかろうと思います。

JISコードにない文字でも出版物にあるのは、全部外字で印刷所が作っているということなのでしょうか?

製版の方法もいろいろありますから、どのように処理したかは実際の本ごとに、製版をしたところに聞かなければわかりません。なお、いろいろな字形を持ったフォントも流通しています。

ハングルは異字体はないのでしょうか? 最初から「これだ!」と決めていれば異字体にはなりえないように思いますが・・・

ハングルも音素/音節文字ですから、漢字のような意味での異体字はありません。

「字形のわずかな違いを捉えて異なる漢字である、としたがる社会的風潮」は一点一画の正確さを要求する学校教育に端を発するものではないか。 そしてその原因を考えると印刷文字と筆記文字の一致を目指した当用漢字政策が大元であろう。 正書法の確立を目指した厳格主義とでも言うべきもののもたらしたものではないか。 無論、一字種一字体原則は国語をより良くした面は否定できず、その反面が異体字別視であるとすると寛容さは容易には得られないのではないか。

学校教育全体というよりは、「試験」重視につながっていると考えます。康煕字典も科挙制度につながっていると想像されます。当用漢字政策が大本であると断言するほどの根拠は今のところありません。社会的な「厳格主義」の風潮が国語政策にも影響したのかもしれません。このために寛容さは容易には得られないということは十分あり得ます。

資料34P「結論として3」に同意しますが、漢字文化圏以外の方や子どもなどの学習者にとっては複数の文字の形が存在するのは混乱が生じると思います。どのような対策が考えられるでしょうか?

漢字文化圏以外の人にとっても、子どもなどの学習者に対しても、受け入れてもらうしかないことだと思います。ラテンアルファベット小文字gのグリフの違いで混乱したという意見は聞いたことがありません。ただ、文字とグリフの関係について明快に示した教育は望まれます。

スライドの質問の答えを教えてください。

質問1:書き言葉としてならYes、話し言葉としてならNo。
質問2:ほとんどNo。ただし、グリフは通常のフォントだけでは足りないこともあるでしょう。
質問3:3)8万字。ただし、「文字」のまとめ方によってはもっと減るでしょう。
質問4:No。意味をもつのは、漢字に対応した「語」の方と考えるべきです。

データベースで文字列検索を前提とする場合、例えば資料P16.17のような字形の異同とコードの関係は大きな問題となります(日中両語のデータが混じる場合は特に)。こうしたことについて、現状としてはどのような対応がなされているのでしょうか? もしも対応がなされていないとしたら今後どのような対応策が考えられるのでしょうか? (結論で延べられるかもしれませんがお教え頂けるとありがたいです。)

スライドp33「結論として2」で述べている正規化という方法があります(技術的詳細は略しました)。簡単に言うと、システムの中で異なる字とされていても、これとこれは同じ字、という表を作ってその中の代表字に統一する方法です。ちなみにNIIのサービスする目録情報の中では、データとして全く同じとして統一する「高髙」のような正規化と、データとしては異なるが検索するときには同一視する「沢澤泽
」のような正規化との2段階に分けて処理しています。

ISO 10646 UCSで違う漢字とみなしたり(「野」「埜」、「高」「髙」など)、同じ文字とみなしたり(「葛」「葛」など)する漢字があるとのことですが、ISOとして決定するには漢字を使用している中国が大きな力を持っているのでしょうか? 日本の意見はどの程度反映されているのでしょうか?

ISOの委員会で国際的に行っています。(詳しくはISO-IEC/JTC1/SC2/WG2/IRG)。日本、中国はもちろん、米国、韓国、台湾等からメンバーが出ています。この中で、日本はもちろん主要なメンバーとして活躍しています。

漢字のコードに関する議論は日本国内だけでやるのでしょうか? それとも中国も含めて日中共同でやるのでしょうか?

質問No.29の回答をご参照ください。

言語圏や時代、場合によっては職業によって異なる漢字の単位(粒度)を、どこでスナップショットを取ってもどこかしら不満が生じるものと思われますが、合意形成が可能であると思われますか? 国内で可能であったとして、国際においても可能であるか?

ISO10646UCSは、合意形成の結果成立しているものです。もちろん、理想的な形とは思いませんが、国際国内をとわず決めごとというのは、そういったものとわりきるしかありません。

同一のフォントで同じコードが割り当てられているのにグリフが異なる場合、(「芸」「芸」など)それらはどのように区別されるのですか?

グリフの切り替えを行う特殊な方式というのも提唱はされていますが、一般的には無理なので、スライドp33「結論として2」で述べているフォントの切り替えという方法しかないでしょう。簡単に言うと、使い分けたいグリフの数だけフォントを別々に作るという野暮ったい方法です。例えばMYFONT1という葛の字の異なるグリフ(異字形)を作っておいて、フォントを切り替えるとそちらの異字形が出てくるようにする方法です。この方法は、テキストファイルでは区別できず、文字単位にフォントの変えられるワードプロセッサなどが必要です。(なお「芸(ゲイ)」と「芸(ウン)」は、コードもグリフも同じですので使い分けはできません。)

顔文字はアスキーアートなので、文字の組み合わせになると思います。1.日本 (^o^) 2. 欧米 :)ここで、2.の組み合わせを入力した結果出てくる絵文字☺は登録としてフォントですか?それとも文字コードですか?

この絵文字はUCSにあります。顔文字のレパートリーは、数種類しかありませんでしたが、確か2011年版のUCSでは数十種類に増えたはずです。(ソフトが対応しているかどうかは別として。)

shimin 2011-qa_4 page2547

注目コンテンツ / SPECIAL