畑違いの言語学をかじり始めて何に参ったかというと、その略語の多さです。例えばS→NP, VPという字面を見て、言語学関連の人間でなければ、Sentence(文), Noun Phrase(名詞句), Verb Phrase(動詞句)という字面への類推は容易ではないでしょう。いわんや(隆盛の理論とはいえ)分野がさらに限られる文法理論のHPSGに於いてをや、です。pn-lxmという字面を見て、どうしてproper noun lexeme(普通名詞語彙素)という字面を類推出来ましょう。
無論、何度も何度も同じ学術用語を繰り返す身にとって見れば略語を使うのが正義でしょうし、言語学徒にとってみても何度も何度も何度も同じ学術用語を見るのもまどろっこしいでしょう。ゆえに双方の利益を増大するために略語が多用されるのは容易に窺い知れるのですが、ここでいきなり畑違いの人間が趣味の世界で言語学関連の書籍やらウェブサイトやらにあたると、何度も何度も何度も何度も略語で躓く羽目になるのです。
この略語の多用は、歴史学ではなかなかに考えにくいことです。情報工学ではITという略語が示すように略語が大好きであるにせよ、例えばコーディング時にわずかなバイト数をけちるために怪しげな略語を使えば、大昔の省資源コーディング礼賛時代とは違い、現代のPerlではたちまちダミアン先生に怒られることでしょう。……と胸を張って言えないところが金融系の中枢システムであるCOBOLの世界ですが……。
ともあれ、これも郷に入りては郷に従うというか、唯々諾々と従うようにしました。何事も批判するのは簡単ですが、仮に批判するにしても相手を知らずして批判することは非常識ですし。
などと訳知り顔で述べたところで、 構文解析機能の難航を覆い隠せるものではありません(ばればれです)。文法書があるのにHPSG式にこれを書き始めようかというその最初の一歩がとても重いのです。ちょうど、詳細要件定義書すらあるのに実装するプログラミング言語が判らなくてエディタが真っ白な状態に似ています。
などと愚痴ばかりを漏らしても生産的ではないので、私がどのようにこうした問題に立ち向かっているか、目下の対策をご案内することにします。
随分間が開いてしまいましたが、その間に翻訳システムの開発が進んだかというとそういうわけでもなく、有り体に書くなら単に仕事に追われていました。あまりにも更新がないと死亡認定されてしまいそうで心配なので、小手先の実装の話も芸がないということもあって、この辺で設計について少々論じてみます。
主題は、およそ自然言語処理に携わる以上は避けては通れない道、語彙(語義)・構文・文意・文脈等の曖昧性解消を如何にすべきか、というものです。
(#48「語義曖昧性の解消は力業で(エスペラントの訳語特定)」の続きを読む)
エスペラントは日本語と同様に語順が比較的自由です。対格(akuzativo; 英accusative)の名詞句は述語(predikato; 英predicate)の目的語(objekto; 英object)であり、主格の名詞句は主語(subjekto; 英subject, nominative)となることによります。よって、以下のいずれも非文(nefrazo, 英nonsentence)とはなりません。
歯の浮くような例を挙げましたが、それはそれとして、エスペラント語日本語翻訳システム「Ermitejo」では、構文解析と意味解析に主辞駆動句構造文法(HPSG: Head-driven Phrase Structure Grammar)という近代的な文法を採用しています。より正直に述べるなら、採用を決めて実現可能性調査を終えた段階で、まさに文法を記述し始めて間もない段階です。
さてそこで問題となるのは、HPSGにこの自由語順言語をどう実装していくかというものです。
御多分に漏れず、HPSGは英語の実装についての研究が最も盛んであり、英語は語順が比較的固定されているので、英語のHPSGの文法(規則・制約・語彙辞書)をそのまま用いることは出来ません。日本語のHPSGによる実装の研究もありますが、限られた公開物を拝見する限りでは私の頭では理解が追いつきかねました。
そこで、備忘録を兼ねて以下に実装方法の考察を述べてみます。
(#41「語順が自由なエスペラントをHPSGで実装する」の続きを読む)
| 月 | 火 | 水 | 木 | 金 | 土 | 日 |
|---|---|---|---|---|---|---|
| « 12 月 | ||||||
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | 31 | |