Ermitejo - エスペラント語日本語翻訳

#BLOGO
日本エスペラント学会(JEI)へ入会 >
2008/1/27

言葉の海へ ~ 辞書引き機能第二版公開

分類: 公開, 開発記 / タグ: , , ,

第一版公開時の「次版は半年後とは言わず、ご案内出来る日が遠からずまたやって来ようかと見通しております」という舌の根も乾かぬ内……もとい、キーボードの打鍵音の反響が収まらぬ内……という程すぐではありませんでしたが、ともあれ「辞書引き機能」の第二版を公開しました。

最大の特長は「見出し語検索」の実装ですが、単にこれまで通りに実装して満足しないのが情報技術職人の端くれとしての矜恃というものです。

特徴は見出し語検索の新設

当たり前の機能をようやく提供

これまで本サイトの辞書引き機能は、(翻訳システムの副産物であった関係で)辞書に載っていないような形(時制・数・格の語形変化や、派生語・合成語)を辞書引きする機能として提供していました。つまり、辞書の見出し語を前方一致・部分一致・後方一致して結果を一覧表示するような見出し語検索機能は実装していませんでした(見出し語インクリメンタル検索は従前より実装していましたが、あくまで補助機能という扱いでした)。

今版になって、辞書引きアプリケーションとしては当然とも言えるこの見出し語検索機能を遅ればせながら実装しました。こうした検索機能自体はPEJVの本家オンライン辞書JEIのオンライン辞書等の先発アプリケーションでも存在しています。これらにようやく追い着くことが出来ました。

語根ネットワークの海へ

さて、単に検索結果を一覧表示するだけでは、検索という面倒な作業を機械に肩代わりするというOAの発想でしかありません。紙の辞書のページを繰る作業が機械化されると、早く正確に辞書を引けるという利点がありませんが、それまでです。

これに対して、機械にしか出来ない機能を実装することで、新たな学習効果が生み出されます。部分一致・後方一致は『逆引き広辞苑』のような特異な例を除けば、紙の辞書ではとうてい出来ません。やろうとすると日が暮れるだけでは済まず、季節が改まるかも知れません。

計算機上での辞書は、この一致オプションが強みではあるのですが、さりとてそれだけでは先発アプリケーションの枠を一歩も出ることが出来ません。

そこで、日本エスペラント学会の機関誌「エスペラント」(La Revuo Orienta)の2008年1月号のpp.22-23の後藤斉氏による記事「『エスペラント日本語辞典』の使い方(1) 語根配列」に着想を得て、結果画面の各語根からさらに見出し語を検索出来るようにリンクを加えてみました。

例えばmalamiを検索するとこれまで通り詳細検索結果が表示されますが、語根区切り表記部に新たにmal/am/iというリンクを張っており、ここから語根amの見出し語検索を行えます。

語根amで見出し語を検索すると、正に後藤氏の言わんとする語根のネットワークが広がっています。

別品詞形
amo, ama
接辞による派生語
amanto, aminda, enamiĝii, …
合成語
gastama, homamo, …
熟語
pacama karaktero, senespera amo, …

リンクを加えるという処理(要は正規表現を使うだけです)は簡単な処理ではありますが、その効果の程は少なからぬものがありました。

エスペラントの語根ネットワークの海を自在に泳げるように

紙の辞書、特に『エスペラント日本語辞典』を「読む」辞典として活用することは良い学習法ですが、オンラインの辞書でもそれに類することが出来るようになります。

辞書の内容自体は『実用エスペラント小辞典』よりも『エスペラント日本語辞典』の方が詳しいですが、語根ネットワークを自在に行き来する作業は、機械化されている分遙かに早く行えます。早く行えると言うことは、逆の味方をすれば、単位時間内でより多くの「海」に脚を伸ばせるということでもあります。

紙の辞書、特に『エスペラント日本語辞典』を「読む」辞典として活用することは良い学習法ですが、それと同様に、語根の繋がりを軽快に楽しく見ていくことが出来るのは、オンライン辞書ならではの利点といったところでしょう。

今風の検索結果画面

見出し語検索結果画面を今風にしている工夫も気付いていただけると嬉しいです。「翻訳メモリ」の一部アプリケーション等のように、n-gram検索結果の表示で、検索語によって中央揃え(センタリング)しています。

細かいところですが、広帯域(ブロードバンド)時代に合致するよう、ページをいちいち繰る必要がないように結果画面を1ページにまとめています。

また、見出し語インクリメンタル検索も中央揃えはしていませんが強調表示し、視認性を向上しています。

改版点の詳細

ベータテストを経ての公開であるため、改版点は非常に多岐に亘ります。今後とも、大規模な改訂はテストサイトを用いてベータテストを行う予定です。

ベータテストにご協力いただいた方々に、この場を借りてお礼を申し上げます。

versio 2.0.0 (33-a publikigo, en 2008/01/26)

  • 【機能追加】見出し語検索機能を追加しました。文字列または語根(/で区切る)で検索すると、辞書の見出し語の絞り込み結果を表示するものです。例えば、語根「am」(「/am/」で絞り込み)の検索結果から、「am/i」「am/a」「am/o」といった他品詞形・「mal/am/i」「am/ind/a」「en/am/iĝ/i」といった接辞による派生語・「gast/am/a」「hom/am/o」といった合成語・「pac/am/a karakter/o」といった熟語が表示されます。それぞれの詳細な辞書引きを行えるばかりでなく、「hom/am/o」であればさらに語根「hom」での絞り込み検索を容易に行え、語根の海を泳ぐように、エスペラントの語根ネットワークを自在に行き来することが出来ます。見出し語インクリメンタル検索との違いは、以下の通りです。
    • 各見出し語の簡易辞書引き結果(文章内単語訳と同様)も表示します。
    • 当該簡易辞書引き結果から、当該見出し語の詳細辞書引き(形態素解析)用のリンクを張っています。
    • 見出し語を検索語で中央揃え(センタリング)し、派生語・合成語の視認性を向上しています。
    • 見出し語の各語根に、見出し語検索用のリンクを張っています。
    • 見出し語インクリメンタル検索では250件以上該当した場合に検索を中断している制限を撤廃しました。ただし、1文字の語根や、2文字以下の文字列については、クライアント(PC等)・回線・サーバそれぞれの負荷低減のために引き続き検索を中断しています。
  • 【仕様変更】詳細辞書引き(形態素解析)と文章内単語訳で、検索語・検索文の送信先CGIプログラム(ゲートウェイ)を/kluzo/として別個に設けました。内部処理のみの変更ですが、外部呼び出し方法も変更となります。見出し語検索結果画面も同様の状態で機能提供を開始しました。
  • 【仕様変更】ゲートウェイ新設により、(開発日誌等の他ページでも)各ページ右肩の検索ボックスの送信先URLを変更しました。
  • 【仕様変更】検索オプションでhavi_derivajxonグループ(「造語を含む」「見出し語のみ」のオプション)を削除しました。前方一致・部分一致・後方一致時は見出し語検索に、完全一致時には単語検索に、それぞれ振り分けるようにしました。
  • 【仕様変更】各機能のURLを見直しました。
    • 単語辞書引き機能は「/unuopa/」から「/vorto/」に変更しました。
    • 新設の見出し語検索機能は「/kapvorto/」としました。
    • 文章内単語訳機能は「/sinsekva/」から「/frazo/」としました。
    • 単語辞書引き機能結果のURLで、検索オプションの「造語を含む」「見出し語のみ」の改組(前述)に伴い、「/jes/」「/ne/」のURLを撤廃しました。この振り分けは「/vorto/」と「/kapvorto/」に該当します。
    • 単語辞書引き機能結果のURLで、検索オプションの一致条件(前方一致・部分一致・後方一致)をこれまでの「/antauxe/」「/parte/」「/malantauxe/」「/komplete/」ではなく「__」の有無で示すようにしました。
    • メール辞書引き機能の案内ページは「/posxto/」のままとしています。
  • 【機能追加】見出し語インクリメンタル検索で、語根区切りを明示出来るようにしました。検索語が「aso」では「aso」も「asocio」も適合しますが、「as/o」では「as/o」のみが適合するようになります。見出し語検索結果画面も同様の状態で機能提供を開始しました。
  • 【機能追加】見出し語インクリメンタル検索で、検索語に語根区切り「/」を含む場合、絞り込み結果の文字列も語根区切りを含めるようにしました。ただし、リンク先である各見出し語の詳細辞書引き(形態素解析)のURLは、引き続き語根区切りを除いています。
  • 【機能追加】詳細辞書引き(形態素解析)で、語根区切り「/」を含めた検索を行っても、正しく辞書引き出来るようにしました。振り分けゲートウェイで語根区切りを除いているほか、URLに「/」を与えた場合(非推奨)にも対応しています。
  • 【機能追加】形態素解析結果画面で、語根区切り付き表記の各語根に、見出し語検索用のリンクを追加しました。
  • 【機能追加】見出し語インクリメンタル検索時、見出し語を強調表示するようにしました。
  • 【表示変更】形態素解析結果画面で、語間のスペースを僅かに広げました。視認性の向上を意図した変更です。見出し語検索結果画面も同様の状態で機能提供を開始しており、特に熟語の視認性が向上しています。
  • 【表示変更】形態素解析結果画面・文章内単語訳結果画面で、より見易くなるよう表組みの表示スタイルを変更しました。表枠の表示モデルを分離モデル(separate)から結合モデル(collapse)にしたり、表ヘッダ・表フッタと表要素との枠を明示化したりしました。見出し語検索結果画面も同様の状態で機能提供を開始しました。
  • 【表示変更】形態素解析結果画面で、結果がない(辞書引きに失敗した)場合の表示内容を改めました。これまでは結果が存在する場合の表組みを流用していましたが、単純に文字列で表示するようにしました。また、その文言も改め、本システムで当該検索語の辞書引きを行えない旨を明示しました。
  • 【表示変更】形態素解析結果画面で、各属性の表示順を固定しました。
  • 【表示変更】形態素解析結果画面で、各行にマウスポインタをあてた際に、行をハイライトするようにしました。これにより、結果の視認性を向上させました。見出し語検索結果画面も同様の状態で機能提供を開始しています。
  • 【表示変更】検索オプションの表示順を変更しました。「で始まる」(前方一致)・「に一致する」(完全一致)・「で終わる」(後方一致)・「を含む」(部分一致)」を、前方一致・部分一致・後方一致・完全一致の順番に改めたものです。
  • 【表示変更】JavaScriptが有効な環境に於いて、検索オプションの値に応じてクエリ送信ボタンの文言を変更しました。前方一致・部分一致・後方一致時には「絞り込み」とし、完全一致時のみ「辞書引き」としました。JavaScriptが無効な環境ではこれまで通り一律に「辞書引き」としています。これにより、実行先の結果画面を直感的に認識出来るようになりました。
  • 【障害対応】見出し語インクリメンタル検索時、検索ボックスで「/」を入力した際の結果部分の誤表示(HTMLテンプレートが再度表示されてしまう)を是正しました。
  • 【障害対応】検索ボックスで正規表現のキーワードを入力した際に、見出し語インクリメンタル検索結果や形態素解析結果画面の表示に障害が起きる問題を是正しました。見出し語検索結果画面も同様の状態で機能提供を開始しています。
  • 【障害対応】見出し語インクリメンタル検索時、代用表記の途中(ĉをcxなどと書こうとした途上であるc)でも字上符付き文字を絞り込めていた問題を是正しました。内部的な値(見出し語インデックスの各値)を正書法に改めたことによります。見出し語検索結果も同様の状態で機能提供を開始しています。
  • 【障害対応】形態素解析結果画面で、Web標準の解釈に合わせてスタイルシートを書き直しました。これまでFirefoxやOpera等で表(のtd要素)の枠が正しく描画されていなかった問題を是正したものです。見出し語検索結果画面も同様の状態で機能提供を開始しています。

今後へ向けて

ゆくゆくは翻訳システムの副産物である類義語取得機能を辞書引き機能に組み込み、am/iの「参照せよ」項として「plaĉi」や「ŝati」を表示出来るようになればと考えています。そうすれば、よりエスペラントの語根ネットワークの海が広がることでしょう。

なお、直近では逆引き(日本語単語からエスペラント単語を辞書引き)を第三版の目標として掲げ、先発アプリケーションに後れを取っている部分に注力する予定です。

#82 (2008/01/27 02:34:08), Gardejo

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

日本エスペラント学会(JEI)へ入会 >
< 脇書非表示 > 脇書表示

Ĉu vi scias?

lesbo

過去の記事

2008 年 1 月
« 12 月   2 月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

分類

最近の記事

最近のコメント

最近のトラックバック

RSS

メタ情報

Aŭtorrajto: © Organizo por Zona Servo per Sinkrona Solvo. Ĉiuj rajtoj estas rezervitaj.
Copyright: © Organization for Zonal Service with Synchronous Solution. All rights reserved.