04/07/01
 漢字ツールよりも電子テキスト?
 
二階堂 善弘

間違いだらけの漢字情報処理?

 世は「情報革命」の時代だということである。そのためか、教育現場でもやたらと「IT化」が喧伝されるようになった。むろん、それ自体は悪いことではない。ただ、コンピュータ技術に対する過信、或いは逆に不信感は、以前よりさらに広がりをもって深まっているように思える。

 だいたい「何々革命」という概念はアテにならない。技術革新は、かなり漸進的に進むのであり、大半の動きはムダなものであるはずだ。どうもこのコトバ自体、技術の進展に対して「一貫した考え」があって、皆が皆それに邁進しているかのような印象を与えかねないので、困ったものである。実のところ、ほとんどの動きは後退とムダの連続であったろう。

 そういった多くのムダな動きが淘汰されて、ある一定の方向が見えてくるのも、だいたい「そのソフトが優秀」とか、「優れたコンセプト」とかいった理由が決定要因になるわけでもない。何となく、皆が使っているうちにスタンダードになってしまった、といった類のものが多いのだ。それだけに、「情報革命はかくあるべし」「このOSを使うべき」などと誰かに聞かされても、こちらは「はあ、左様でございますか」といった、甚だやる気のない、かつ意欲に乏しい返事しかできない。コンピュータの世界では、OSにしろ、ソフトにしろ、使ってナンボのものであり、そこでは「好き嫌い」はある程度あってもいいが、「かくあるべし」といった押しつけ論などは、あまり意味がないのだ。便利なものなら、どんどん使えばいい。ただそれだけでいいと思う。

 というのも、漢字情報処理の世界は、これまでとにかく理念先行で、「かくあるべし」論ばかりが喧伝されてきたので、些かうんざりしているのである。その理念先行の姿勢が、逆に電子テキスト作成の足を引っ張ることになってきたとも言える。ここらで、もっと実用面重視に立ち返った方がよいのではないだろうか。

ツールよりコンテンツ

 マイクロソフトのMS-DOSが登場した後、日本ではそれが日本語DOSとなり、台湾では、倚天DOSなどが開発され、パソコンの世界で容易に漢字が扱えるようになった。またアップル社のマッキントッシュでも、早くから漢字が扱えた。もっとも、より多くの漢字、というならばすでに大型電算機の世界ではJEFがあり、台湾でもCCCIIがあった。双方とも2万字以上の漢字が使える仕組みであった。ただ、これらは一部ではかなり使われたものの、その後の漢字情報処理の流れには、むしろ小さな影響しか与えていない。

 Unicodeが登場した時、日本のJIS、中国のGB、台湾のBig5、韓国のKSのそれぞれのコードを包含したものとなった。実際にはいろいろ問題もあったが、扱える漢字数は2万を超えて、漢籍などを扱うにも十分なベースが整ったわけである。しかし、日本ではUnicodeに対する批判がかなり強かった。その批判点の多くはJISに関わる問題であったにもかかわらず、「漢字を統合するのはけしからん」「文字数が少ない」といった批判がUnicodeに向けられたのである。その多くは、実際に使わずにただ非難していただけであり、あまり前向きなものとは言えなかったが、一時かなりの力を持った。

 結局、数年後にはUnicodeが主流となり、マイクロソフト社のWindows、アップル社のMac OS、それにLinuxなど、パソコンで使われる多くOSでUnicodeが使われることになった。現在でもその流れは変わらない。そのときに批判していた人たちの多くも、つまりはUnicodeをベースにしたツールを使わざるを得なくなったわけである。その間、いかにムダなエネルギーを消費したことか。

 ところで中国学における情報化の流れを見たとき、こういった漢字情報処理、或いは漢字ツールの発展はほとんど影響を与えていない。むしろ電子テキストやデータベースといったコンテンツが登場することで、大きな変化が現れているのである。

 例えば、台湾中央研究院の「漢籍電子文献」(http://www.sinica.edu.tw
/~tdbproj/handy1/
)で、『二十五史』や先秦諸子などのデータベースが公開されたことは、大きな転換点であった。しかしこれは、現在でも「Big5 + 外字」というかなり旧式のシステムにより公開されている。むろん多漢字と呼べるほど多くの漢字を使えるわけでもない。

さらに、中国の書同文公司の作成した『四庫全書』『四部叢刊』のデータベースなども、多くの研究機関で日常的に使われるようになった。これもまた中国学の研究・教育方面に与えた影響は少なくなかったと思われるが、いずれもUnicodeのUCS-2レベル、すなわち約2万字の漢字数に、外字を加えて作成されている。

 つまりは、「ツールよりもコンテンツ」なのである。実際に中国文化研究の場では、『左伝』や『史記』といった実際のデータが重視されるのであり、それらが実際にどのようなツールで使えるか、といったことは二の次にすぎない。

 逆の見方をすれば、もし重要なコンテンツを作成すれば、それに伴ってそのコンテンツが使われているツールが広まることになるわけである。

コンテンツ作成が課題?

 恐らくこの流れからすれば、今後とも重要なのは、電子テキストやデータベースなどのコンテンツの方であると思われる。しかし日本で作られる中国学のコンテンツは、それほど多くはない。

 むろん台湾の中央研究院などが多くのデータを提供している以上、同じようなデータを二重に作成するのは一見ムダに見える。しかし、例えばネットワーク障害で数日間中央研究院にアクセスできなくなった時には、実際に大学院の授業などに支障をきたしたことがある。いまや研究のインフラとも言えるデータベースが、使えたり使えなかったりする現状は、やはり困りものである。また『四庫全書』をはじめとする、多くの有力なコンテンツは、やたらと高価でもある。

 もっと「誰でも使える古典データ」があってもよいのではないだろうか。しかもなるべくデータベースの形ではなく、電子テキスト中心で、なおかつ版本などの画像が付加されていれば望ましい。データベースのような、バイナリの形式でデータが提供されていると、テキストが流用される恐れは少ないが、スクリプトによる大量処理などが不便である。ここは発想を転換し、はじめから転用フリーのデータにしておいたらどうであろうか。

 もっとも、古典データの場合は著作権の問題が少ないものの、実際には版本所蔵に関連する権利が問題となりやすい。ただ、昨今は公開に前向きな所蔵機関も多いので、可能なところから順次行っていけばよいと思われる。

 今度こそ回り道をすることなく、コンテンツを作成すべきであると思うがどうだろうか。恐らくツールの利用は、その後についてくるに違いない。


関西大学文学部 助教授 二階堂 善弘(にかいどう よしひろ)
研究分野は、中国の民間信仰研究
ホームページは、「電気漢文箱」http://www2.ipcku.kansai-u.ac.jp/~nikaido/