Ermitejo - エスペラント語日本語翻訳

#BLOGO
2009/1/29

HPSGとオブジェクト指向言語による機械翻訳序論

分類: 開発記 / タグ: , , , , , , , , ,

日本広しといえど、今更エスペラントと日本語の翻訳システムという「車輪の再発明」を行おうという物好きは私くらいのものだと思っていましたが、先日物好きの仲間が増えました。アキラさんという方です。「エスペラントを勉強せずに」というブログを立ち上げられ、精力的に更新を続けていらっしゃいます。

ブログを数ヶ月も平気で放置するどこかの誰かはアキラさんの爪の垢を煎じて飲むべきだと思いました。

という反省はさて措き。そんなアキラさんが上野式システムにいたく驚かれているようです。「上野式」というのは、故・上野俊夫氏が1985年4~6月の「PCマガジン」(ラッセル社)に連載された機械翻訳のシステムです。その後同社から『パーソナルコンピュータによる機械翻訳プログラムの制作』として書籍にもまとめられています。

その「驚き」というのは、私もいつか来た道です。現在は「敬意を表して別の道を行く」こととしています。この記事では、自然言語処理を趣味で取り組んでいる方へ向けて、「別の道」を採った判断根拠や、「別の道」としてのHPSGやオブジェクト指向Perlという道具仕立ての利点などを、簡単ではありますが紹介してみます。

(「HPSGとオブジェクト指向言語による機械翻訳序論」の続きを読む)

2009/1/1

謹賀新年 ~ 2009年年頭のご挨拶

分類: 雑記 / タグ: , ,

新年明けましておめでとうございます。旧年中に皆様からいただきましたアクセス・ご支援などに対し、改めまして深い感謝を申し上げますと共に、新年のご挨拶を申し上げます。

(「謹賀新年 ~ 2009年年頭のご挨拶」の続きを読む)

2007/10/22

語義曖昧性の解消は力業で(エスペラントの訳語特定)

分類: 開発記 / タグ: , , ,

随分間が開いてしまいましたが、その間に翻訳システムの開発が進んだかというとそういうわけでもなく、有り体に書くなら単に仕事に追われていました。あまりにも更新がないと死亡認定されてしまいそうで心配なので、小手先の実装の話も芸がないということもあって、この辺で設計について少々論じてみます。

主題は、およそ自然言語処理に携わる以上は避けては通れない道、語彙(語義)・構文・文意・文脈等の曖昧性解消を如何にすべきか、というものです。

(「語義曖昧性の解消は力業で(エスペラントの訳語特定)」の続きを読む)

2007/9/20

語順が自由なエスペラントをHPSGで実装する

分類: 開発記 / タグ: , , , ,
コメント1件

エスペラントは日本語と同様に語順が比較的自由です。対格(akuzativo; 英accusative)の名詞句は述語(predikato; 英predicate)の目的語(objekto; 英object)であり、主格の名詞句は主語(subjekto; 英subject, nominative)となることによります。よって、以下のいずれも非文(nefrazo, 英nonsentence)とはなりません。

歯の浮くような例を挙げましたが、それはそれとして、エスペラント語日本語翻訳システム「Ermitejo」では、構文解析と意味解析に主辞駆動句構造文法(HPSG: Head-driven Phrase Structure Grammar)という近代的な文法を採用しています。より正直に述べるなら、採用を決めて実現可能性調査を終えた段階で、まさに文法を記述し始めて間もない段階です。

さてそこで問題となるのは、HPSGにこの自由語順言語をどう実装していくかというものです。

御多分に漏れず、HPSGは英語の実装についての研究が最も盛んであり、英語は語順が比較的固定されているので、英語のHPSGの文法(規則・制約・語彙辞書)をそのまま用いることは出来ません。日本語のHPSGによる実装の研究もありますが、限られた公開物を拝見する限りでは私の頭では理解が追いつきかねました。

そこで、備忘録を兼ねて以下に実装方法の考察を述べてみます。

(「語順が自由なエスペラントをHPSGで実装する」の続きを読む)

2007/8/17

Time flies like an arrow

分類: 開発記 / タグ:

「開発日誌」と銘打っておきながら、そういえばこのブログでは本サイトの使命の保守本流であるエスペラント語日本語翻訳システム(Ermitejo)自体の開発状況等を殆ど全く書いていませんでした。

遅まきながら気付いたというよりは、なかなか趣味のプログラミングの時間を取れないままに世界エスペラント大会が過ぎてしまったことを無意識的に頭から消していたのかも知れません。世界エスペラント大会のような節目に、せめてβ版でも公開出来ればと考えていたのですが、流石にそう甘くはありませんでした。

そこで、開発の過去を振り返りつつ、現在の状況を明らかにし、未来への展望を開いていく一環として、「開発記」という分類をブログに設け、投稿を行って行くことにしました。自然言語処理関連の検索語を用いて検索エンジンを経由して本サイトにお越しになる方もいらっしゃいますが、本サイトがそのご参考になるかどうかは怪しいものです。なお、ttt.ermitejo.comのトップページに掲げていた文書も、「開発記」の分類に属するものとして、過去に遡ってこのブログに取り込んでおきました。

あまり時系列に沿って過去・現在・未来を書けた物でもないので、まずは今回はこれまでの形態素解析を簡単に振り返りつつ、目下開発中の構文解析について述べて参ります。

(「Time flies like an arrow」の続きを読む)

< 脇書非表示 > 脇書表示