漢字・アラビア文字・モンゴル文字
              ――東京理科大 矢島敬二氏に聞く

加藤弘一
矢島敬二 東京理科大経営学部教授。

JIS第1・第2水準の原型

矢島敬二氏

――JIS C 6226の第1・第2水準を決める根拠となった37の漢字表の多変量解析は、矢島先生が担当され、大きな役割を果たしたと林大先生からうかがいました。矢島先生はどういう経緯で文字コード開発に参加されたのでしょうか?

矢島 わたしはJISの委員でも、その前の情報処理開発センターが事務局になった「漢字符号標準化調査研究委員会」の委員でもないんですが、両方の委員会の委員長になられた森口繁一先生といくつかのプロジェクトでご一緒した関係で、森口先生の方から声をかけていただきました。わたし個人がお引き受けしたのではなく、当時わたしが勤務しておりました日本科学技術研修所として受託しました。

――どういう会社なんでしょうか?

矢島 (財)日本科学技術連盟の傘下の会社で、わたしは1960年から1988年まで勤務いたしました。森口先生のお手伝いをすることが多かったのですが、漢字表の解析も、先生からあらかじめ手伝ってほしいとお声がかかり、1974年度のはじめから、森口先生の指揮で、西村恕彦先生と相談しながら作業を開始したのだと思います。
 西村先生は74年の委員会の委員をやっておられまして、わたしの担当した部分について提出した報告書が西村先生によって工業技術院風に修正されて JIS C 6226-1978 の解説の3.2漢字の選定として収められています。そのなかに日本科学技術研修所の名前も入れてくれました。

――第1・第2水準は二千数百字づつにわかれていますが、同じくらいの分量にしようというような目論見は最初からあったんですか?

矢島 後からふりかえれば、最初から同量にするつもりで線を引いたように見えるかもしれませんが、われわれが説明を受けた時は、法律分野とか医学分野でだけ使われる文字のセットがあるのではないか、基本的な文字セットに、分野ごとの文字セットを加えれば、その分野に必要な文字が網羅できるのではないかという予想がありました。
 当時はメモリが今のようにふんだんに使えなかったので、基本文字セットは標準でもっていて、医学のジャーナルをやる時には医学用文字セットを追加するというような使い方を想定していたのです。

――第1が基本的な文字セットで、第2水準が補助的な文字セットであるという考え方は、JIS C 6226-1978の解説にも残っていますね。でも、多変量解析の対象となった37の漢字表は、専門分野別にはなっていないと思いますが。

矢島 はい。実際に医学や法律といった専門分野のジャーナルを調べたところ、漢字制限の傾向の強い時代という事情もあったんだと思いますが、難しい字はすべて平仮名や片仮名で書いていることがわかったのです。

――「尾てい骨」というような交ぜ書きですね。

矢島 全部片仮名にしている例が多かったですよ。それで十分通じるわけで、医学用、法律用の文字セットは必要なかったのです。
 結局、基本的な漢字以外に必要なのは、人名・地名といった固有名詞をアイデンティファイするための漢字だという結論に落ちついて、行政管理庁の地名の資料や、生命保険会社の人名の資料を解析の対象にすることになりました。

――専門分野の用字例というと、具体的にはどういう資料を調べられたんですか?

矢島 調べたというほどのものではないです。

多変量解析の実際

――1万2千字の統計をとられたわけですが、情報処理開発センターで作った漢字カードをお使いになったのですか?

矢島 そのカードより前のものだと思いますが、一覧表を使いました。表の一番左の欄に漢字があって、37の漢字表のどれに含まれているかをチェックした表です。

多変量解析のグラフ

――その表はどなたがお作りになったのですか?

矢島 和文タイプライターのベテランの女性の方にお願いしてできたと聞いています。Aという漢字表に載っている漢字と、Bという漢字表に載っている漢字が同じか違うかというアイデンティファイの作業を経ないと、37の漢字表にのっている異なる字数が12,136だという数字すら確定しないわけです。ただ、その作業をされた方は漢字の専門知識をもたれているわけではなく、漢字処理の長い経験をお持ちの方だったと聞いています。

――和文タイプライターというと、活字のならんだ文字盤を動かして文字を拾うやつですね。
 その和文タイピストの方が文字を同定する際、今でいう包摂規準はどのように決めたのでしょうか?

矢島 作業しながら決めていったと思います。一貫した規準はなかったでしょう。途中でこうした方がよかったとわかっても、前にもどって訂正する余裕はありませんでした。12,136字のこの字とあの字が違うというのも、かなり乱暴な面があったと思います。本当は試行錯誤して作り直していかなければならかったんですが、そういうことをやっている余裕はありませんでした。この字が重み36と出たけれども、二つの字にわけるべきじゃないかとわかる。しかし、元にもどって修正しようとすると、同じようなことが他にも出てくるというわけですよ。包摂規準のフィードバックをしなかったという点は問題ですが、仮にでも番号を振っておかないと、こういう作業は進みません。

――なるほど。今と違って、簡単にコンピュータの使えない時代だったから、そうならざるをえなかったんでしょうね。その表をもとに、矢島先生は多変量解析をされたわけですね。

矢島 そうです。

アラビア語システム

――アラビア語とモンゴル語の文字処理システムでも、先駆的な仕事をされているとうかがいましたが、どういう経緯で係わられたのですか?

矢島 1975年に、日本科学技術研修所で、東レの8500という漢字プリンターを設置したんですが、当時、イランの石油化学プロジェクトにちょっと関係していまして、そのプリンターでペルシャ文字を打ち出せないかと考えたんです。ペルシャ文字はアラビア文字と同じで、漢字プリンターですと半角の中におさめるんですが、漢字システムの考え方ではうまくいきません。
 アラビア文字のタイプライターはすでにあったんですが、現地の人は評価している面もある反面、かなり不満をもっていました。アラビア文字は、単語の語頭にあるか、語中にあるか、語尾にあるかによって、同じ文字でも字形が変わってくるんですが、タイプライターですと、意識的に字形を打ちわけなければなりません。コンピュータを使えば、それが自動的にできます。それだけでなく、フォントもタイプライターよりましにしようと思いました。
 兄(矢島文夫氏)が言語学者で、アラビア語をやっていましたので、兄の協力をえながら、アラビア語の表示システムを研究していたところ、1979年にサウジアラビアのJISにあたるSASOという団体が、国際シンポジュウムを開くので、出席するようにいってきました。アラビア語の標準文字コードと、キーボード排列の標準を決めたいというので、西村恕彦先生といっしょに参加したんですが、NECのPC-8001というパソコンでアラビア文字を表示するシステムを持って、参加しました。

――PC-8001ですか。原始的な8bitマシンですよね。

矢島 欧米勢はミニコンで、パソコンを持っていったのはわれわれだけでした。PC-8001は置いてきましたが、コンテキスト・アナリシスで、文字を自動的に語頭形、語中形、語尾形に変えるくらいはやりました。フォントが8x8ドットだったので、この字は格好が悪いというようなことを大分言われましたが、パソコンでやったということで、かなり評価されました。この体験がもとになって、アラビア語のワードプロセッサを作ったんですが、ニチメンの足立晋さんという方などが注目してくれまして商品化しました。それがこの写真です。

 パンフレットを見せていただいたが、左から右に表記する英語と、右から左に表記するアラビア語が同一画面で共存している。

――バイリンガル・システムではないですか! 改行方向の混在なんていうことをすでにやっていたんですね。

矢島 改行方向を混在させるには、どういうことが必要かというような問題を、あの頃、あれこれやっていたんですよね。

――ひょっとして、MSXですか?

矢島 いいえ、CP/Mです。この間まで、そこにあったんですが。

――捨ててしまったんですか。もったいない。70年代にここまでできていたとは、驚きです。

矢島 実際はあまり売れなかったんですがね。

――ヤマハだったかと思いますが、ごく最近まで、アラビア語版のMSXを作って、アラブ諸国に輸出していたそうです。それには関係してらしたんですか?

矢島 その話は知りません。

――MSXは ROMカセットでソフトウェアを提供したのが祟って、ファミコンと正面から競合し、1992、3年には日本では全滅するんですが、アラビア語版MSXは今でも健在で、コーランのROMカセットまであるようです。矢島先生のアラビア語ワードプロセッサは早すぎたのでしょう。
 ところで、文字コードは何を使っていたんでしょうか?

矢島 SASOのシンポジュウムは1979年5月で、その以前からやっていましたから、文字コードは自分で作りました。8bitのGLにラテン文字を入れ、GRにアラビア文字を入れました。JISの半角片仮名の代りにアラビア文字を入れたようなものです。ある程度、他のアラビア語コードを見たりしましたが。

――語頭形、語中形、語尾形には別のコードポイントをふったんですか?

矢島 いいえ、同じコードポイントです。スペースで区切られた範囲をWordと決めて、その中のどの位置かで表示字形を自動的に決定するわけです。
 むしろ、難しかったのはフォントの設計です。文字がつながって見えなくてはいけないので、つなぎ目をどうするかですよね。カーニング(英語の「fi」のように、字間を詰める処理)の問題もあります。
 日本語や英語にもつづけ字がありますが、活字文化が早くから浸透しているので、個々の文字を分離する伝統が確立しています。しかし、アラビア語は活字文化の歴史が浅いというか、活字を拒否してきたところがあるので、日本語や英語の感覚ではうまくいきません。
 フォントをどう設計すべきはメーカーが決めるべきではありません。ユーザー自身に決めてもらわなければ、押しつけになります。しかし、活字を拒否してきた文化なので、コンセンサスをうるのが大変です。

――部族ごと、宗派ごとに書体が違うわけですか?

矢島 そこまではいきませんが、いろいろな書体があって、明朝体にあたる印刷の標準書体がないんですよ。いろいろ揉まれたので、ある程度はわかってきたつもりですが。

モンゴル語システム

――モンゴル語のシステムには、どういう経緯で係わられたのですか?

矢島 モンゴル文字というと、ノコギリを縦にしたようなトドモンゴル文字が有名ですが、トドモンゴル文字は17世紀にホシュート部族のザヤ・パンディタ(1599-1662)という学者が作ったもので、歴史が新しいのです。13世紀には、元のフビライ汗がパスパにチベット文字をもとにしたパスパ文字を作らせていますが、それよりはるか以前の8世紀に、ウィグル文字の借用がはじまりました。これが「伝統的モンゴル文字」といわれるスクリプトです。
 ウィグル文字はアラビア文字がもとになっていますから、伝統的モンゴル文字もアラビア文字がルーツです。伝統的モンゴル文字は、チムールの時代に大幅な改良がおこなわれ、現在でも使われています。
 20世紀になると、モンゴル人民共和国として独立した外モンゴルや、ソ連領の中央アジアでは、政治的な理由から、キリル文字が使われるようになりました。これを「新モンゴル文字」と呼びます。
 つまり、現代モンゴル語は、伝統的モンゴル文字、トドモンゴル文字、新モンゴル文字という三種類のスクリプトで表記されているわけです。
 1986年だったと思いますが、中国の新彊から、愛知工業大の修士課程に留学していたバリデン君が、ぼくらの作っているアラビア語ワードプロセッサのようなモンゴル語ワードプロセッサを作りたいので、教えてくれと訪ねてきました。それがつきあいの始まりで、その後日本にきて東京理科大の客員研究員となりわたしの研究室に在籍したわけです。

――アラビア文字と字形が共通する伝統的モンゴル文字だけではなく、トドモンゴル文字のワードプロセッサも開発されたのですね?

矢島 そうです。トドモンゴル文字も、アラビア語ワードプロセッサで採用した原理とかなり近いとわかったので、転用できる部分がありました。この作業はバリデン君がひとりで全部やったわけです。

――日本人もいろいろなスクリプトを使いますが、モンゴル人もアバウトな民族のようですね。

矢島 アバウトというより、文化多元主義だと思いますよ。最近、中央公論社の『世界の歴史』の「大モンゴルの時代」の巻を読んで教えられましたが、碑文をたてる時には、一面をモンゴル語で刻んで、別の一面をアラビア語で刻んで、別の一面を中国語で刻むというようなことを普通にやっていた反面、通貨だけは統一していました。モンゴル帝国は野蛮というイメージが流布していますが、経済は一つ、文化は多元的という現代に通ずるような進んだ面があったんですよ。中華思想とはまったく違います。

――すると、どんな文字でもかまわないんですか?

矢島 押しつけられた文字は拒否するみたいですね。バリデン君のパスポートには「巴力登」と中国風に表記してあるんですが、実は「バリデン」はファミリー・ネームで、彼個人を特定する名前ではないのです。ですから、「bit」に発表した共同論文では「A.バリデン」としてもらいました。
 「巴力登」だけでは誰だかわからないんですが、彼にとって、自分の本当の名前とは、あくまで伝統的モンゴル文字か、トドモンゴル文字で表記したものですから、「巴力登」という国家に押しつけられた表記などどうでもいいのでしょうね。

――パスポートにはラテン文字も併記されていませんか?

矢島 ラテン文字の表記も二種類あって、「Bariden」になったり、「Barideng」になったりするので、論文では統一するようにいいました。

――日本人もそうですね。「チ」をヘボン式「chi」と洒落てみたり、訓令式で「ti」にしてみたり、自分でもわからなくなったりします(笑)。

ユニコードは文化の押しつけか

――最後に、ユニコードについては、どのようにお考えですか?

矢島 全世界の文字カタログを作ったわけで、便宜的なものとしたは使えるとは思いますが、文字統合してますから、コード解析となったらもうお手上げですよね。
 アラビア語のシステムでネイティブのユーザーの方々から注文をつけられた経験からいいますと、文字コードは、字形のカタログを作ればそれで終わりというものではないです。実際に運用してみると、編集で妙なことになったり、いろいろ問題が出てくるものです。
 世界の文字の中では、アルファベットと漢字は、早くから印刷が普及したこともあって、文字が整理されており、例外的にコンピュータに載せやすいですが、そうでない文字の方が多いのです。そうした言語では、文字の単位すら曖昧です。

――活字による文字整理を十分やっていない文字を、いきなり万国文字集合のような大きな文字セットにいれるのはまずいということですか?

矢島 コンピュータ印刷の運用実績を重ねないことには、どういう文字を文字の単位としていいかすらわからないと思いますよ。運用実績もないのに、文字単位を決めてしまい、さあ使えというのは、押しつけといわれてもしょうがないでしょう。

――ユニコードは、早晩、破綻するのでしょうか?

矢島 破綻するというより、アメリカ人中心の便宜システムで終わるでしょうね。

――今日は文化論にまでわたるお話をうかがえました。卒論指導でお忙しいところ、どうもありがとうございました。

(Feb01 1999)

Copyright 1999 Copyright 1999 Yazima Kezi
Kato Koiti
This page was created on Mar08 1999; Updated on Jul10 1999.
文字コード
ほら貝目次