パイオニアの時代の文字コード
     ――東京農工大名誉教授 西村恕彦氏に聞く
西村恕彦氏

加藤弘一
西村恕彦氏 東京農工大名誉教授。JIS C 6226-1978原案作成で中心的な役割をはたす。

ホレリス・コード

――西村先生は COBOLをいち早く紹介されるなど、コンピュータで大変業績をあげられた方とうかがっております。まだ情報工学科のない時代、どんなところからコンピュータの研究をはじめられたのでしょうか?

西村 わたしは学部では地質学を勉強しましたが、大学院は心理学で、検査や日本語形容詞の多変量解析みたいなことをやりました。心理統計とか教育統計と呼ばれる分野ですが、それがきっかけでコンピュータに係わるようになり、日本IBMに入社しました。当時のIBMはパンチカード・システムから電子計算機に切り替わる時期で、社内にもコンピュータのことを知っている人がほとんどいませんでした。わたしは教育部門で、社内外の人間にコンピュータを教える仕事をしました。

――EBCDICコードができた時期ですか?

西村 できたというより、IBMではパンチカード・システム時代から、ああいうコードを使っていました。パンチカード・システムの発明者の名前をとってホレリス・コードと言っていましたが、パンチカード・システム時代の資産をそのまま活かすために、EBCDICコードと、その前身のBCDICコードは、あのような形にならざるをえなかったのです。

――なるほど。だから、あのような不合理なコードができたわけですね。文字コードの原流にはテレックスのコードだけではなく、パンチカードのコードもあった、と。

西村 そうです。メインフレームのコードはパンチカード・システムのコードを継承しています。コンピュータはUNIVACが先行し、IBMは後から追いかけていましたが、パンチカード・システムのシェアを背景に盛りかえしました。ですから、IBMはパンチカード・システムのコードを使わざるをえなかったのです。

議論百出のJIS C 6226

――JIS C 6226(JIS X 0208の前身)には、情報処理学会の試案から関係していらしたのですか?

西村 情報処理学会の試案にはまったく関係しておりません。私が文字コードとかかわるようになったのは、森口繁一先生が委員長になられた1974年の「漢字符号標準化調査研究委員会」に呼ばれてからです。引きつづき 78JISの原案委員会主査と 83JISの委員をやらせていただきました。

――74年の委員会が発足するにあたって、通産省から相談を受けたというようなことはございましたか?

西村 そういうことはありません。私が関係したのは、委員会ができてからです。あの委員会はメーカーが全部はいっていましたから、大変難しい委員会だったことは確かですが。

――メーカーがそれぞれ独自のコードをもっていたということですか?

西村 もっていたことはもっていたのですが、それで利害がどうこうということより、自由討論の過程で、とにかく早く決めてくれという声が強かったのです。理想を追求したものとか、学問的に厳密なものよりも、実用になるものを一日も早く出してほしいというわけです。実際、JIS C 6226の施行された78年には日本語ワープロ第一号機(東芝のJW-10)が出るわけで、各社でいろいろなプロジェクトが動いていました。78年施行はぎりぎりの時期だったと思います。もし、議論が長引いて、78年に JIS C 6226がまとまっていなかったら、日本語文字コードが発散していたというか、ひどいことになっていたと思います。
 そういう危機感があった反面、いろいろな意見が出てきて、議論が紛糾しました。あの委員会が曲がりなりにもまとまったのは、委員長の森口先生のお力があったからだと思います。

――当時の状況はわかりましたが、「漢字符号標準化調査研究委員会」が1977年3月に JIS C 6226ほぼそのままといっていいくらい完成した案をまとめた後、日本規格協会が JIS原案委員会を作って、さらに二年間、審議をしますよね。急いでいたなら、JIS原案委員会を一年で済ますとか、77年時点の案をそのまま JISにするとかしてもよかったのではないかと思うんですが、そのあたりはどうなんでしょうか?

西村 ごく普通の手順だと思います。新しい規格をゼロから作る場合は、まず小規模の委員会で元になる案をまとめ、その後で、JIS原案委員会を召集して、さらに広い見地から審議するという手順をとります。もちろん、その後に、日本工業標準調査会による審議があります。詳しくは工業技術院に聞いていただきたいですが、JIS原案委員会を一年ですました例はないと思います。

中国とJISコード

――和田弘先生に取材させていただいたところ、和田先生は日中共同で統合漢字コードを作るという構想をもっていらしたとうかがいました。しかし、日本と中国は 72年に国交を回復したばかりでしたから、共同で工業規格を決められるような段階ではなかった。中国との共同開発は無理だから、台湾といっしょにやったらどうかという方もいたそうですが、一度、台湾とジョイントしたら、中国との関係はおしまいです。和田先生は、21世紀には日本と中国が一体になるのは自明だから、日本の文字コードは中国と共同開発しなければならないという信念をもっていらしたということです。
 しかし、通産省は和田構想を棚上げする形で、74年の委員会を立ちあげました。当時としては、和田構想の実現は難しかったのでしょうか?

西村 ええ。とても、とてもですね。日本のメーカーだけでも、あれだけ紛糾したのですから。
 しかし、JIS C 6226ができると、中国側はひじょうに関心をもちまして、日本に文字コード制定の協力を要請してきました。JIS原案委員会から、主査のわたしと二人の委員が招聘され、中国側の専門家にレクチャーしてきました。ですから、中国の GBコードと JISコードは似た作りになっています。第一水準がピンイン順、第二水準が部首順というあたりは JISの考え方そのままです。

――中国と直接的な交流があったのですか! 何年のことですか?

西村 JIS C 6226が出来た直後ですから、78年だったと思います。

――GBコードに日本語の仮名がはいったのも、JISの影響ですか?

西村 わたしどもが特にそういうことを言ったわけではありませんし、言えることでもありません。中国側の判断で入れたのだと思います。

――中国側と接触されたご経験からいって、当時、日中統一漢字コードは可能だったと思われますか?

西村 可能だったとは思えません。同じ漢字文化圏といっても、文字文化が違いますし、常用する漢字も違います。その上、当時の中国は簡体字を増やすかどうかで揺れていました()。中国に声をかけたら、韓国にも加わってもらわなければなりませんが、韓国は韓国で難しい事情があります。前にも言いましたように、日本のメーカーだけでもかろうじてまとめたという状態で、そこに中国や韓国がはいったら、とうていまとまらなかったでしょう。

文字選定の実際

――西村先生は「標準化ジャーナル」に、JIS原案委員会を代表されて、「漢字のJIS」という文章を発表されていますが、第二節「抽象的な文字概念」に、次のように書かれています。

 「父」という漢字は,手で書けば千差万別の形となり,活字の明朝体でも,メーカーによって少しずつデザインが違う。それをいちいち区別することは意義が少ないと考え,一つにまとめて抽象的な類にする。こうしてまとめ,想定したものが"文字概念"である。そしてこの文字概念「父」に対して,1001001-1100011という単一の符号を割り当てる。

 その一方、「ある程度以上形の異なるものは,区別する習慣が社会的に確立しているので,そこまでゆけば別の文字概念として,別の符号を与える」として、「花」と「華」、「個」と「箇」を例にあげておられます。
 同一の文字概念にくくられる場合でも、社会習慣として別字としてあつかわれているなら、異体字に別コードポイントをあたえようということだと思います。この点は賛否両論があるんですが、JIS C 6226が長い寿命をもちえたのは、異体字をいれたからだということは間違いないでしょう。異体字をいれるにあたっては、どのような議論があったのでしょうか。

西村 あれはメーカー・サイドの要望です。ユーザーは異体字を必要としているのだ、と。実用性を高めるということで、ある程度、異体字をいれることになりました。

――JIS C 6226の漢字には、異体字がはいらなかったもの、異体字が一つだけはいっているもの、複数はいっているものと三種類ありますが、これは多変量解析の結果で決めたのですか?

西村 多変量解析は関係ありません。当時の漢字処理コンピュータの用途は、宛名印刷がほとんどでした。日本語情報処理=宛名処理といってよいくらいの状態だったのです。ワープロができる前のことですから、コンピュータで文章を書くなんていうことは、まだ遠い先の話でした。
 そういうしだいですから、宛名に使う人名漢字と地名漢字は、多変量解析の結果とは別枠で、優先していれることになりました。人名漢字は生命保険会社の漢字表を使いましたが、地名は都道府県コードのJISがすでにあったので、そこに出てくる郡のレベルまでの地名はすべていれるようにしました。市区町村コードはまだありませんでした。

――人名・地名以外は、多変量解析の結果通りですか?

西村 頻度順でいれるというのが委員会で決定した基本方針でしたから、37の漢字表にとられている順にいれていったのですが、機械的にいれていくと、バランスの悪いものになりかねないので、「麒麟」の「麒」と「麟」のように、いっしょにいれた方がよいものについては、片方の頻度が低くてもいれるようにしました。「麒」だけがあって、「麟」がないというような事態は、なるべく避けたかったのです。

――どの文字をいれ、どの文字は落とすというような議論は、委員会ではまったくなかったのでしょうか?

西村 なかったと思います。とにかく早く決めなければという共通認識がありましたから、個々の問題に深入りすることは避けようという傾向がありました。

――林大先生のご判断ははいっていなかったと考えてよろしいのですね。

西村 林先生にお願いしたのは字体の問題で、文字選定についてはほぼ機械的にやりました。

――基本方針にくわえられた若干の修正は、西村先生のご判断と考えてよろしいでしょうか?

西村 人名・地名はまとめていれるべきだということと、「麒麟」のような熟語もまとめていれるべきだということは、委員会に提案して承認されましたから、私個人の判断ではなく、あくまで委員会としての判断です。

1バイト一万円の時代

――キリル文字がはいった経緯はどういうことだったのでしょう?

西村 そのあたりはまったく憶えていません。実用性ということだったのではないでしょうか。

――罫線素片がはいらなかったのは?

西村 技術的な理由からです。当時は漢字をあつかえるようなドットプリンタがありませんでした。1バイト一万円の時代が長くつづきましたから、何千字もの漢字のドットパターンを記憶しておくのは不可能でした。漢字を印字するには、電動和文タイプとか、漢字テレタイプを流用していました。金属活字を機械的に押しあてて印字するわけですから、罫線素片で線をあらわしたとしたら、まっすぐな線は引けません。図形を表現するなら、プロッタのような機構を使った方がいいという考え方が主流で、罫線素片をならべて図形にするというような発想はなかったのです。
 しかし、83JISの時にはドットプリンタが出てきていましたから、点の集まりで図形が表現できるようになっており、罫線素片を文字としていれました。

――漢字テレタイプや和文タイプの文字セットというと、三千字前後だったと思いますが、第一水準漢字の2965字という数は、出力機構の制約が影響したのでしょうか?

西村 直接は関係ありません。しかし、メモリがこんなに短期間に大容量化し、安くなるということは、誰も夢にも思いませんでしたから、JISの六千字すべてがコンピュータやプリンタにはいるなんていうことは、絶対にないだろうという共通認識はありました。

――そうでした。第二水準漢字は 80年代後半まで、高価なオプションでした。

西村 第一水準の三千字だって、何億円もする大型機でないと実装できないだろうというのが、当時の一般的な認識でした。

――第一水準の三千字も、当時としては思い切った規格だったのですか?

西村 そうです。初期のワープロは、第一水準をすべて実装して、一千万円以下で出ましたが、あれは破格の値段だったと思います。

――700万円近かったと思いますが、安い方で破格ということですか?

西村 そうです。あの値段では採算はとれなかったと思います。

原案提出以後

――97JISの委員会によると、78JISの規格票の例示字体の字形は、刷を重ねるにしたがい、かなり異同があるそうです。それには係わられたのですか?

西村 印刷の都合ではないでしょうか。すくなくとも、私は係わっていません。原案委員会は原案を提出すれば終わりです。日本工業標準調査会で審議し、JISとなってからは、規格票の出版を委託された日本規格協会の仕事ですから、われわれは関知しません。

――前後しますが、文字選定の資料にはガリ版刷のものはあったのでしょうか?

西村 なかったと思います。37の漢字表も、行政管理庁の資料も、活字になっていました。
 ただ、あの規格に限らず、当時はガリ版刷の文書が多かったのは事実です。ゼロックスはもう出ていましたが、今のように印刷機代わりに、何百枚もコピーできる時代ではありませんでしたし、ワープロはありませんでしたから、中間段階で出る文書はほとんどが粗悪なガリ版刷でした。校正も不可能でした。

――中間段階ということは、最終段階は活版かタイプ印刷ということですか?

西村 なにが最終段階かという問題になりますが、すくなくとも、通産省に提出した原案はガリ版でした。

――日本工業標準調査会は、ガリ版刷の原案を審議したんですか?

西村 あの規格に限らず、それが一般的だったと思います。

――漢字表の部分もガリ版だったんですか?

西村 漢字表はどうだったでしょうね。通産省に提出した時点では、ガリ版だったかもしれませんね。
 ガリ版の品質が悪いということはみんな知っていますから、印刷をどうしようかという議論は委員会でしました。写研さんには、こちらからお願いしてやってもらおうということになりました。

――写研を選んだということは、大修館の『大漢和辞典』をやったということが大きかったのでしょうか?

西村 それもありましたが、写研さんならやれるだろうということが大きいです。通産省を通してお願いしたという形です。写研さんがうちがやりますと手をあげたわけではないです。

――JISの場合、規格票の校正は委員はやらないという話を、JISのオブザーバーの方から聞いたのですが、JIS C 6226の場合はどうでしたか?

西村 憶えていません。あるいはそうだったかもしれません。

――漢字表の校正はどうでしょう?

西村 私はやっていません。もし、委員がやるとすれば、林先生がおやりになると思います。

83JISの背景

――さて、83JISの話題に移ります。83JISでは字体の変更だけでなく、第一水準にいわゆる康煕字典体、第二水準に通用字体がはいっていた文字の入替をやり、多くの批判をまねきました。どういう経緯で、あのような思い切ったことをされたのでしょうか?

西村 81年に当用漢字表が廃止され、常用漢字表が施行されましたから、それにJISを合わせなければということでやったのではないでしょうか。

――確かに、そう言われてきましたし、また、83JISと同時に出たJIS C 6234(現在はJIS X 9052)というドットプリンタ用のフォントの規格には、「常用漢字表が目安とされるところからも、情報交換用の文字集合である JIS C6226と関連をもつ本規格として、統一的な字形を用意することが望ましい。むしろ、同一の部分字体に対して、異なる字形……が混在することこそ不自然である」と明記してあります。83JISの方には、そういう記述がないんですが、JIS C 6234にははっきり書いてあります。
 ところが、常用漢字表前文には「常用漢字表に掲げていない漢字の字体に対して、新たに、表内の漢字の字体に準じた整理を及ぼすかどうかの問題については、当面、特定の方向を示さず、各分野における慎重な検討にまつことにした」とあって、字体整理に歯止めをかけているのです。

西村 そうなんですか。

――はい。文化庁にも確認しましたが、文化庁側から 83JISの字体変更を要請した事実はないと言っていました。また、22組のコードポイントを入れ換えた文字は、95字の追加分にはふくまれておりません。字体変更がおこなわれた文字については、追加分が若干ふくまれていますが、83JISが常用漢字表に基づくという議論は、無理があると思います。委員会で常用漢字表をめぐる議論はなかったんでしょうか。

西村 なかったと思います。あったら、憶えているはずです。

――当用漢字表と常用漢字表の間の相違点は、大まかに言うと、二つあります。まず、収録漢字が 95字追加されたこと。第二に、表外字の字体の現状維持が明文化されたことです。この二つの点について、本当に議論がなかったのですか?

西村 委員会でそういう議論をした記憶はありません。

――すると、野村雅昭先生お一人の判断でやられたということでしょうか?

西村 かもしれません。どうだったでしょうね。

――野村先生には、文字コードの話はもうしたくないということで、手紙を通してしかうかがえなかったのですが、表外字の字体については、すべて正字に統一する案から、朝日新聞のような徹底した簡略字体で統一する案まで、いくつか案を出したということでした。議論の結果、ほぼ中間的な案が通ったというのですが。

西村 そういう議論はあったでしょうかね。……よく憶えていません。やはり、78JISの時と同じで、学問的な厳密さよりも、実用性を第一に考えて決めたんじゃないかと思います。

――実用性とおっしゃいますが、83JISでは「檜」と「桧」の位置を入れ換えていますよね。「檜山」さんが「桧山」さんになり、「桧山」さんが「檜山」さんになってしまうわけですから、実用上、問題が起こると思うんですが。

西村 認識が甘いと言われればそれまでですが、当時は機械が代われば、新しい文字コードにすみやかに入れ替わると考えていました。コンピュータは何十年も同じ機械を使いつづけたりはしませんから、三、四年もすれば、78JISの機械はなくなり、83JISの機械だけになるというような認識が一般的だったのです。
 ところが、NECが78JISの機械を出しつづけるという誤算がありましたし、古いデータがそのまま残ってしまうということもありました。文字コードの規格がどういうものかという認識が、当時は十分ではなかったのだと思います。
 それから、JIS C 6226は文字概念を符号化するというのが 78JIS以来の基本方針ですから、字体については、文字の専門家におまかせするという傾向があったと思います。

――やはり、文字概念の符号化という JIS C 6226の基本方針が影響しているのですね。
 97JISの解説には、JIS C 6226が文字概念を符号化したという説は間違いだと書いてありますが、JIS C 6226の本文と解説をお書きになった西村先生が、文字概念の符号化であるとおっしゃっているわけですから、これ以上確かなことはありません。
 最後になりますが、78JISと 83JISは、文字セットの内容がかなり異なるので、別々のエスケープシーケンスがあたえられています。日本は当初、83JISを更新あつかいにするつもりだったが、ISOの方から文字セットが違いすぎるので、更新あつかいにはできないと指摘され、新しいエスケープシーケンスを申請したのだという説があるのですが、事実なんでしょうか?

西村 ISOの指摘は正論ですね。新しいエスケープシーケンスを申請するという話は、原案委員会では出なかったと思います。原案を提出した後のことはわかりませんが、そういうこともあったかもしれませんね。

――今日はどうもありがとうございました。

(Feb17 1999)

付記

 このインタビューは1999年2月17日、西村恕彦氏が入院されていた病院の面会室でおこないました。資料なしで記憶だけで答えていただいた関係で、原稿化にあたってはできる限り事実の確認をおこない、その上で西村氏にご校閲をお願いしましたが、JCS委員会の池田証寿氏より、以下の三点に事実誤認があると御指摘をいただきました。
 入院されていたという状況を考えれば、細部にわたる質問は控えるべきだったかもしれません。調査がゆきとどかず、ご迷惑をおかけした西村恕彦氏にお詫びするとともに、貴重な史実を御教示いただいた池田証寿氏に感謝いたします。(Jul10 1999)

市町村コード
市町村コード(JIS X 0402)は78JISの時点ですでにあり、78JISも参照している。
行政管理庁の資料
97JIS原案委員会が探しだした実際の資料はガリ版刷。表紙だけが活版印刷。
通産省に提出した78JIS原案
97JIS原案委員会が探しだした実際の資料は活版印刷。漢字表だけが手書き。筆跡は複数。
Copyright 1999 Nisimura Hirohiko
Kato Koiti
This page was created on Jun20 1999; Updated on Jul10 1999.
文字コード
ほら貝目次