Ermitejo - エスペラント語日本語翻訳

#BLOGO
XREA用ログ自動取得バッチプログラム >
2007
4/
22

形態素解析関連機能α版、近日登場

分類: 開発記 / タグ: , , ,

いわゆる世間一般で言うところの「翻訳サイト」(excite等のアレ)としての機能をアルファリリース出来る時期が数年先になる見通しで、その先の(オフラインアプリ然とした)「翻訳ソフト」並みのエスペラント語対訳翻訳であるとか、「ウェブサイト翻訳」等は見通しがまだ立たないという状況に戦々恐々とする今日この頃です。

まさか数年間もこのウェブサイトを塩漬けする訳にもいかないので、生存報告がてら基礎中の基礎の機能のみアルファリリースする予定です。具体的には、以下のような機能です。

オンライン辞書引き機能(予告)

まずは、他力本願甚だしくて申し訳ないのですが、エスペラント語単語の「オンライン辞書引き」機能を予告します。広高正昭(Vastalto)氏の『実用エスペラント小辞典 第1.4版』をウェブ上で辞書引きするというものです。

※追記:本ページの内容を記述した2007年4月23日より後、5月20日に「オンライン辞書引き」機能のα版を公開しました。

これは全くもって本家やらJEIのHTML版の三番煎じであります。さらに、そもそも構文解析等の後続処理のため自ずと作らざるを得なかった形態素解析機能であるため、辞書引きそれ自体を最終目的とはしていません。つまり、形態素解析等の「解析」系の機能はあくまで「風呂敷を広げる」(内部的なデータを展開する)ものであり、「風呂敷をたたむ」(データを取捨選択して、一つの解としてユーザに提案する)のは「生成」系の機能が負うべき筋であります。しかしながら、そうした経緯や原則はともあれ、辞書引きアプリ単体として見た場合には後発としてそれなりの機能で訴求しなければならないという義務もあります。

そのような、後発組として求められる機能として、文法語尾の正規化やら、派生語(品詞替え・接辞追加等)・合成語(語根と語根の組み合わせ等)やらといったものを加えています。その他、BROの等級といった情報等も表示出来ます。

「辞書に載っていない形」を辞書引き出来なければ後続の構文解析へ続く一連の翻訳の処理を行えないため、それなりに手を掛ける(Perlで平気で1000行を超えてしまう)必要がありました。また、別頁にて述べていますが、このシステムで採用している文法理論のHPSGではレクシコン(語彙辞書, lexicon, leksikono)こそが命です。このため、数年先のエスペラント語翻訳機能アルファリリース時の本システムの辞書はまた異なったものとなりますので、一応補足しておきます。

品詞タグ付け(tagger)機能(予告)

次に、自然言語処理の基礎である形態素解析の、そのまた基礎である「品詞タグ付け」機能を予告します。日本語の形態素解析器であるMeCab(和布蕪)ChaSen(茶筅)辺りと同様の機能を提供するものです。

「エスペラント語で品詞解析も何もあった物ではない、語尾を見よ」というご意見は、9割方正解です。むしろ重要なのは、残りの1割であるところの上述の語尾正規化やら、約物の処理といった裏方作業です。これは形態素解析としては重要ですが、「Leono/N estas/V besto/N ./period」の字面からは、はっきり書いてしまえばユーザの立場とすれば胸躍るものではなく、見ていてあまり面白いものではないかとも思われます。

構文解析移行への展望

ここまでの処理は、知見が豊富でかつ実装例も事欠かないため、一般的に容易な処理と言えます。エスペラント語であれば、他の自然言語処理以上に容易です。具体的には、品詞推定に隠れマルコフモデル等を使う必要が皆無でした。文法語尾(-j, -n等)を正規化した状態では、一部の品詞語尾のない単語(nun, hieraŭ等)や非エスペラント語化外来語(エスペラント文では、Vindozoだけではなく、Windowsも実際には使われている)を除いて、ほぼ確実に品詞を特定出来ます。

とはいえ、他の自然言語より楽をした分、後続の処理では他の自然言語よりも苦になることもあるわけです。

「堅い」エスペラント文であれば、対格の存在等によって、構文解析がそれなりに行えるかと思われます。しかしながら、それはエスペラント語と機械翻訳に過大な幻想を抱き過ぎていると断じざるを得ません。他の自然言語でもそうであるように、構文解析がそれのみで完結することは極めて稀であり、やれ世界知識やらやれ実例やらの援助を借りなければなりません。

具体例として小西岳『文法の散歩道』の「estasは=ではない」から例示すると、語順を問わないエスペラント語では「leono estas besto.」の主語がbestoであっても(OVS式)構わないということでもあり、「後は文脈やら常識やらで判断してね♥」という、人間にとっては至極もっともな、機械にとっては非常に厄介な言語現象がそこいら中で生起している次第です。余談ついでに、このこと一つを取ってみても、エスペラント語が「人造言語だから無味乾燥だ」という言がまったく当たらないことがよく分かります。単なる語順だけであれば、英語的なla blanka domoも仏語的なla domo blankaも、構文解析の視点からはHPSGの威力によって一つの見通しの良い規則(いわゆるhead-adjunct schema)で記述出来るのですが、これはエスペラント語に限った話ではありません。

ともあれ、これらは世間様一般で言うところの「言い訳」ですので、取り敢えずは形態素解析関連のアルファリリースを乞うご期待、その後は首をキリンにしてお待ちください、といった次第です。

#30 (2007/04/22 19:28:01), Gardejo

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

< 脇書非表示 > 脇書表示

Ĉu vi scias?

elektrumi

過去の記事

2007 年 4 月
    5 月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

分類

最近の記事

最近のコメント

最近のトラックバック

RSS

メタ情報

Aŭtorrajto: © Organizo por Zona Servo per Sinkrona Solvo. Ĉiuj rajtoj estas rezervitaj.
Copyright: © Organization for Zonal Service with Synchronous Solution. All rights reserved.