Ermitejo - エスペラント語日本語翻訳

#BLOGO
AMD Phenom解禁即入手の決め手 >
2007/11/13

単語辞書引き機能の正式版公開 (versio 1.0.0)

分類: 公開, 開発記 / タグ:

この度、辞書引き機能を正式版として改めて公開する運びとなりましたので、謹んでご連絡申し上げます。形態素解析機能に関連した副産物として2007/05/20に公開し、半年間に及ぶ試験稼働を終えることが出来ました。構文解析の研究・設計を行っていたり、或いは翻訳システム自体の開発に飛び石的に携わざるをえなかったりと、辞書引き機能に常に目を向けられていた訳ではありませんが、30回に及ぶ改版を経て、半年間の間に十分に揉んでいただいた辞書引き機能は着実に歩みを重ねて来られたと考えています。

本サイトの本来の使命は翻訳システムの開発ですが、その副産物としての辞書引き機能がこれほどまでにご利用いただけているとは、開発者自身予想だにしておりませんでした。しかしこうして栄えあるversio 1を刻めたことは、ひとえに、まだまだ発展途上であるこの辞書引き機能をご利用いただいた皆様あっての帰結であろうと感謝しております。改めてご利用者の方々にお礼を申し上げます。

現在は形態素解析処理の結果を素に辞書中の日本語訳語をそのまま用いているだけであり、日本語の訳語としては甚だ不十分な状態であることは認識しております。これは日本語の文字列生成処理を加えていない所為でありますが、次版に向けては勿論、新たに発見された不具合(バグ)の修正や、上記以外の機能追加についても積極的に取り組んで参る所存です。ご意見・ご感想・ご要望等も楽しみにお待ちしております。

次版は半年後とは言わず、ご案内出来る日が遠からずまたやって来ようかと見通しておりますので、今後ともどうぞよろしくお願い申し上げます。

なお、最近の修正点は以下の通りです。

versio 1.0.0までの修正点 

今般、ハイフンで区切られた合成語を辞書引き出来る機能を追加したことのみを理由とした正式版への改版ではありません。それだけであれば、versio x.y.zのyを増やすだけであったところです。しかし、当初から想定していた「最低限必要と思われる機能」がこれによって揃い、かつ、既に提供済みの機能が安定的に稼働していることから、節目のversio 1を刻むことにしたものです。次にversio 2となる際には、日本語の文字列生成(自然な訳語の生成)等といった大きい改版内容が伴われる予定です。

なお、特別ウェブログの記事として採り上げるような内容に乏しかったためこれまで論評や解説を加えていませんでしたが、出来ればハイフン区切り関連については内部の力業な処理を今後ご紹介出来たら、と考えています。

また、文章内単語訳機能についても、内部的には単語辞書引き機能を呼んでいますが、こちらの改版履歴はまた別途まとめて改版履歴ページを設ける予定です。

versio 1.0.0 (31-a publikigo, en 2007/11/13)

  • 【機能追加】ハイフンで区切られた合成語を辞書引き出来るようにしました。これまで「Esperanto-agado」は辞書引き出来ませんでしたが、これからは「Esperanto」(エスペラント)と「agado」(活動)の合成語であるものとして辞書引き結果を返せるようにしました。
  • 【機能追加】上記のようなハイフンで区切られた合成語を、Ermitejo内で「連結語」として取り扱い、結果画面にもその旨を表示するようにしました。

versio 0.11.4 (30-a publikigo, en 2007/11/06)

  • 【仕様変更】合成語の分解時、各語根の正当性検査を厳格に行い、誤った処理結果が得られないように是正しました。例えば、trdukarto(誤字)をtr/duk/art/oと切った最初の語根trについて、語尾を補完してtr+oとしたものについては、これまでは辞書の本来副詞troに該当したために語根として採用してしまっていましたが、今後はtr/oという辞書見出しが存在しないことを以て不採用とするようにしました。これにより、より正しい処理結果(合成語該当せず、という解を含む)を得られるようになりました。

versio 0.11.3 (29-a publikigo, en 2007/11/05)

  • 【障害対応】vortaro.ermitejo.comドメイン上のページに於いて、ページ右肩の検索ボックスからの検索が出来なくなっていた問題を修正しました。versio 0.10.0でサイトの構成を変更した際の変更漏れでした。

versio 0.11.2 (28-a publikigo, en 2007/10/22)

  • 【機能追加】全角英数字で検索された場合でも、自動的に半角英数字に読み替えて辞書引き出来るようにしました。入力欄では半角文字しか入力出来ないようにしていますが、一部のブラウザがこれに対応していなかったため、フールプルーフ機能を講じたものです。
  • 【表示変更】バージョン表記にリンクを設け、改版履歴ページへ遷移出来るようにしました。

versio 0.11.1 (27-a publikigo, en 2007/09/30)

  • 【表示変更】同義語・類義語・反義語・関連語の字上符付き文字について、リンク先URI・リンク文字列を正書法に改めました。

versio 0.11.0 (26-a publikigo, en 2007/09/25)

  • 【機能追加】「見出し語のみ」として検索した場合、見出し語のみを検索するようにしました。表記揺れ(大文字小文字・字上符付き文字・韻文中の母音省略)や文法語尾の派生(対格・複数・時制)は対応しています。これまでのように造語(派生語)を含む検索をする場合には「造語を含む」として検索してください。
  • 【仕様変更】一部の語を辞書から削除しました。-hav/a等の接尾辞的な用語です。これにより、造語を誤って解析することを防止しました。
  • 【仕様変更】「表記」は、大文字と小文字・字上符付き文字の正書法と代用表記について、入力値をそのまま用いるようにしました。これまで字上符付き文字が必ず正書法に置換されていたものを改めたものです。辞書引き対象となる文字列は「音韻」として、小文字化・正書法化した状態で、これまで通り表示されています。

versio 0.10.1 (25-a publikigo, en 2007/09/24)

  • 【機能追加】処理時間を表示するようにしました。見出し語に存在する場合にはわずか0.03秒ほどですが、くだんのpraleonetultraermitejecojnは0.54秒もかかっていること等が判るようになりました。
  • 【仕様変更】分詞の内部的なデータ保持方法を、他の接尾辞と同様にしました。表示方法も同様となりました。
  • 【障害対応】一部の複数形の語(tiuj等)を正しく解析出来るようにしました。
  • 【障害対応】一部の対格付きの語(kiun等)で接辞語根区切り文字を二重に得てしまい(kiu//n)、発音の解析に失敗して全体が異常終了する不具合を是正しました。

versio 0.10.0 (24-a publikigo, en 2007/09/23)

  • 【機能追加】クライアントおよびサーバの負荷低減および表示の高速化のため、画面をブラウザのキャッシュに基づいて表示することとし、キャッシュの期限を1時間としました。HTTPレスポンスヘッダにて、Expireの日付を1時間とするように動的に記述したことによります。なお、これまではキャッシュ無しとしておりましたが、GETメソッドによるCGI呼び出しのため、ブラウザの「戻る」ボタン等で画面遷移をした場合でもブラウザの履歴は無効とはなりませんでした。
  • 【障害対応】min, vin等の対格代名詞の辞書引きに失敗していた問題に対応しました。
  • 【仕様変更】標準辞書の元データである『実用エスペラント小辞典』(PEJVo)から「lin」と「sin」の見出し語を取り除きました。対格代名詞の辞書引き成功に伴い、linとsinだけ存在していた対格代名詞の訳語が不要となったのみならず、今後の訳し分けを行う際に、訳語としての妥当性に問題があることが判明したためです。例えば、Mi renkontas lin.は「彼“と”出会う」と訳されるべきで、「彼“を”」という訳は適当ではありません。
  • 【その他】ロジック層の一部のモジュールについて、保守性・可読性を高めるよう書き改めました。

これより以前の改版内容は、以前の記事「エスペラント発音解析の実装方法 (単語辞書引き機能 versio 0.9.5)」や「改版履歴」ページにて記しています。

#64 (2007/11/13 01:52:57), Gardejo

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

ご意見・ご感想をお寄せください

AMD Phenom解禁即入手の決め手 >
< 脇書非表示 > 脇書表示