Ermitejo - エスペラント語日本語翻訳

#BLOGO
初音ミクにLa Esperoの触りを歌わせてみた >
2007/10/22

語義曖昧性の解消は力業で(エスペラントの訳語特定)

分類: 開発記 / タグ: , , ,

随分間が開いてしまいましたが、その間に翻訳システムの開発が進んだかというとそういうわけでもなく、有り体に書くなら単に仕事に追われていました。あまりにも更新がないと死亡認定されてしまいそうで心配なので、小手先の実装の話も芸がないということもあって、この辺で設計について少々論じてみます。

主題は、およそ自然言語処理に携わる以上は避けては通れない道、語彙(語義)・構文・文意・文脈等の曖昧性解消を如何にすべきか、というものです。

語彙の曖昧性という普遍的問題

エスペラントは欧米文化に偏っている

9月末という少々昔の話ですが、papageno氏によるウェブログ「エスペラント語への疑問」に於ける「音叉」という興味深い記事に対して、コメントの交換を行いました。

氏がふと思い立たれて音叉のエスペラント訳を辞書引きしたところ、予想通りフランス語由来の語根であったという一件が紹介されており、それに限らずとも全般的にエスペラントがヨーロッパ文化に強く依拠しているではないか、ゆえにエスペラントが易しいと一概に言えるのだろうか、という提言です。

確かにロマンス語・ゲルマン語・スラヴ語だけで語彙の由来の大半が賄われてしまう現状を見ても、papageno氏のご指摘の通りであります。

その一方で、例えば音叉は造語を含めて確認されているだけでも5つの訳語候補が存在することも見逃せない事実です。或る事物に対して複数の訳語が存在するのは、他の民族言語と比べてエスペラントの歴史が浅いことや、強力な統制機関が存在しないことをコメントしました。こうして続いたコメントの交換はとても実り多いものでした。特に、或る事物に対してワニる(krokodiri)ことがなくても、複数の訳語候補がある場合には、母国語由来の訳語を無意識のうちに選択してしまうのではないかという鋭い指摘には、正直に申し上げて目から鱗が落ちる思いでした。

悪平等を避けたのは最善ではないが止むなし

さてここで、エスペラントの語彙や基底文化がヨーロッパに強く偏っているのは、私は止むなしかと考えています。近世にはaa, ab, acといったように、事物に対して記号的に音韻を当てはめる人工言語もありましたが、まったく飛ばず鳴かずであったのは、現在の普及度からは明らかでしょう。語彙を全く無の状態から作成することと、先天的な語彙を複数の言語系からちゃんぽんする配慮を見せるなどして或る程度継承することとを比べて、ザメンホフは公平性・難易度を勘案して後者を選択したのです。私も、悪平等を避けたこの選択は現実的なものであったと思います。

語彙蒐集元のちゃんぽんの偏りも、19世紀末という時代を思えば無理からぬことでしょう。ついぞ百数十年前まで「アジア人は人間ではないので国際法が適用出来るかどうか」で揉められる人達でしたので、当時の人間世界は欧米止まりというのも無理からぬことです。歴史に「たら・れば」は有り得ませんが、ザメンホフがあと数十年遅く生まれていたら、東洋かぶれなスキヤキ・テンプラ・ウドン・ゲイシャ・ハラキリといった東洋文化上の事物だけではなく、一般的な事物に対しても語彙の割り当てを試みたかも知れません。

何を以て公平性の根拠とするかはまた議論の余地があり、語彙を多くの言語から均等に蒐集するか、話者の加重平均で蒐集するかといった選択肢がありますが、ともあれ、エスペラント語の翻訳システムの開発者としては、まずは現状のエスペラントの枠内で実装を進めるのが常道です。

エスペラントは公平を謳っているのではないか、という批判もありますが、これは甘受せざるを得ないでしょう。これらの現代的な視座からのエスペラントの問題点の指摘については枝葉末節とは私は思いませんが、そうした事象を採り上げての否定的な評価に全て与する物でもありません。問題は謳い文句を拡大再生産してしまう人たちでしょう。なまじエスペラントが公平・公正を謳うものですから、また、一部の狂信的なエスペラント原理主義者の方々がこれを協力的に喧伝するものですから、その言動不一致という矛盾があぶり出されるのです。しかし、二兎を負えない以上は逃した片系の兎の皮算用をしても無為というものではないでしょうか。平等と平易は天秤の両端にあるものなのです。

私はエスペラントの内在理想に共鳴するところ大です。ただ、これに加えて、主に公平性や普及度の観点から勘案して、国際共通補助語候補としてはエスペラントがその最右翼であるとの計算もしています。この双方の理由ゆえに私はエスペラントを支持している次第です。仮にエスペラントを超える平等かつ平易な言語が発明されたら、乗り換えることにやぶさかではありません。

後続処理の設計を如何にするか

さて、ここで技術の話に戻しましょう。散々ビット数を稼いでおきながらようやく本題に入るのが私のまどろっこしいところですが、はてさて。

曖昧性解消が技術面での課題

技術的には語彙の語源はどうでも良いことで、要件ですらありません。ところが、或る事物に対する語根が複数存在する場合は、これを一つに特定する必要がありますので、処理の方法を考えねばなりません。これを「曖昧性の解消」と自然言語処理界隈では言うようです。まさにこういった1:NないしN:Mの関係にあるものは、翻訳システム等の自然言語処理上の難点と言えます。委細は参考文献の『自然言語処理』に端的にまとめられていますので、興味がありましたら是非ご覧ください。

作成中のエスペラント語日本語翻訳システム”Ermitejo”ではそもそも構文解析・意味解析の統合的かつ効率的な処理のために主辞駆動句構造文法(HPSG)を採用しています。すると語彙辞書に語の前後関係(共起情報)のような詳細を記述出来るため、或る程度の「取っ掛かり」があるのであれば、訳語の特定処理は人間の思考をそのまま実装することが出来ます。

問題は先の音叉のように、取っ掛かりが無くてどれを選んで良いのか人間でも迷ってしまう事物です。この例は日本語からエスペラント語へという方向の辞書引きですが、本システムではエスペラント語から日本語へという方向の訳語選択で本件問題に出会います。

また、共起情報も完全ではありませんので、特定した一つ以外の選択肢をビットの海に投棄するのもいただけません。ゆえに、訳語の選択順を得る必要があり、結局どうあがいても辞書に複数の登録があるならば、何らかの処理を加える必要があるという結論に至ります。

さらに、これは語彙だけでなく構文も、或いは文脈についても同様です。例えば、プログラミングについて論じていると判断した文章では、metodoを「方法」ではなく「メソッド」と訳さねばなりません。その文脈をどうやって計算するかという問題が横たわります。結局は無作為に抽出するなどして実行する度に答えが変わるという奇天烈な実装をしない限りは、何らかの処理で近似解を得るしかありません。

流行かぶれは技術者の正義

このような処理の方法論について、最近の流行は何と言っても統計です。私のシステムでも、将来的に翻訳精度向上のためにこの方面に手を伸ばす予定ですが、とはいえ私独りで実用的な質量の対訳コーパスを作ることは難しいので、「翻訳メモリ」ソフトと同様、他のユーザや自分自身の語・句・節・文で別訳語・別解釈を選択した情報によって選択順のスコアを左右出来るように構想しているところです。語弊を恐れずに言うならカナ漢字変換の学習機能と同様の考えです。

統計用データの生成に対する権利をユーザに解放し、ユーザに協力いただいて内容の充実を図るというのは、これもまた最近の流行語(というかbuzzwordというか)であるWeb 2.0の構成要素であるところのCGM(Consumer Generated Media)の潮流そのままです。

常々心配しているのですが、安定をこそ旨とするお堅い金融系ユーザSEをやっているとお公家様になってしまいそうなのです。技術者というもののふたるもの、常に技術動向や文化の潮流に対して目を配らせていないと、井の中の蛙となってしまいかねません。ゆえに、流行にかぶれて「よし俺もやってみよう」と安易に触手を伸ばすのは(少なくとも趣味の世界では)完全に正義なのです。部署の中でしか使えない人間、或いは会社の中でしか通用しない人間は、会社にとってはあまりありがたくない存在でしょう。趣味が自己投資(というのは過大な用語ですが)を兼ねるのであれば、それは何より自分にとって一番良い体験となります。

翻訳機の未来は明るい 

閑話休題、こうした集合知を用いるにせよ、およそ統計処理といったものはコンピュータの性能向上により「富豪プログラミング」を繰り広げる方法論に他なりません。この怪しげな用語は、概ね「潤沢なコンピュータ資源にあかせて力業で楽に処理をすること」として理解いただくのが宜しいかと存じます。ハードウェアに目を向けてみればムーアの法則はまだ健在ですし、そういった意味で、翻訳機の未来は決して暗くはないと思っています。

上部構造は下部構造によってのみ決定されるわけではないと思いたい、すなわち個人は社会の歯車だがそれのみではないと思いたいのですが、そうはいっても戦争は政治の延長線上であり、そこに経済が極めて強く紐付いています。とはいえ言語の齟齬による不信が解消されるならば、火があっても油を注ぐことは防げますので、少しでも無用の軋轢が減少するならば、エスペラントの思想の大きな部分が達成されたことに他なりません。

エスペラントは道具に過ぎません。ゆえに、エスペラントに依らずしても高度な翻訳機の実現によって国際理解が深まって平和が達成するならば、それはそれで良いではありませんか。

もっとも、それでプログラミングという私の趣味は飽きませんので、相変わらず私はエスペラント語日本語翻訳システムの開発を進めて行くでしょうけれども。

余談 ~ カタカナ訳語の氾濫を憂う

なお、余談になりますが、情報技術関連で訳語が英語のカタカナ読みに偏ってしまうのは日本人としては寂しい限りです。先の例では、metodoについてプログラミングの話題では「メソッド」という選択肢しか取り得ません。福沢諭吉がbankに銀行を充てたり、西周がphilosophyに哲学を充てたりした明治時代は遠くに去りにけりといった感があります。

この安易なカタカナ語の採用が、日本語が新たな事物に音韻を与える際の軸ぶれを抑えているということも言えそうです。例えば英語のcomputerについては計算機・電算機(電子計算機)・電脳といった訳語が見受けられますが、「コンピュータ」という英語の音韻そのまんまな訳語によって、表記ぶれは殆ど駆逐されました。法律の条文では「計算機」という訳語が一般的な様ですが、仮に戦時中の様に敵性語を禁止するという暴挙が布かれたとしたら、日本語の訳語の統一(収斂)までに少なからぬ混乱が生まれたであろうことは疑うまでもありません。

野球は戦争前も一塁・二塁等の訳語が使われていましたが、戦争だとstrikeを「よし」と置換するといったなかなか珍妙な光景が繰り広げられたようです。野球の様に規則(ルール)があるものは語の統制も容易でしょうが、そうでない語の混乱は推して知るべしといったところでしょうか。「敵性語禁止ごっこ」をして、上記リンク先のWikipediaで例示されている「カレーライス」辺りをお題に採り上げる混乱具合を体験するのも面白いかも知れません。

とはいえ、日本語はまだましな方です。少なからぬ国々は数学用語が英語のままとなっているため、数学の授業を英語で行ったり、そこまで行かなくとも英語の単語を使わずに、例えば二次関数ではなくquadratic functionという用語が教科書にちりばめられていたりするようです。

禁止されていないので外来語をエスペラント風表記にしただけの新語彙を導入する人は後を絶ちませんが、エスペラントは柔軟な造語法を備えており、その意味では公平(ともすれば悪平等)かつ民主的(ともすれば衆愚的)な語彙形成がなされるので、選択肢が多くてかつ収斂しないのはむべなるかなと、papageno氏にコメントにてお伝えしたように改めて思いました。

#48 (2007/10/22 00:49:47), Gardejo

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

ご意見・ご感想をお寄せください

初音ミクにLa Esperoの触りを歌わせてみた >
< 脇書非表示 > 脇書表示

Ĉu vi scias?

virta

過去の記事

2007 年 10 月
« 9 月   11 月 »
1234567
891011121314
15161718192021
22232425262728
293031  

分類

最近の記事

最近のコメント

最近のトラックバック

RSS

他のエスペラント関連ブログ

メタ情報

Aŭtorrajto: © Organizo por Zona Servo per Sinkrona Solvo. Ĉiuj rajtoj estas rezervitaj.
Copyright: © Organization for Zonal Service with Synchronous Solution. All rights reserved.