Ermitejo - エスペラント語日本語翻訳

#BLOGO
メトカーフの法則とエスペラント運動 >
2008
2/
17

穴を掘って埋め戻す見出し語表示

分類: 公開, 開発記 / タグ: , , ,

辞書引き機能のversio 2.3.0を公開しました。見出し語表示で品詞・分野情報・同義語等を表示するようにしたものです。

これまでは先発アプリケーションに対してともすれば劣位な表示であったのですが、「わざわざそうしていたのは辞書引き機能が翻訳システムの副産物だからだ」という開発者の以下の言い分も聞いてあげてください。勿論、今回の改版内容を何故最初から施さなかったのだというご批判はごもっともですが……。

改版点のおさらい

versio 2.3.0 (40-a publikigo, en 2008/02/17)

  • 【機能追加】見出し語検索結果の表示を解りやすく改めました。これまではいずれも省いていましたが、辞書引き結果で詳細に表示される内容を簡略化して以下の通り表示するようにしました。文章内単語訳結果やメール辞書引き結果にも今後反映する予定です。
    • 複数の語義がある場合には[1] [2]などと表示しました。
    • 品詞を山括弧<>で括ってPEJVに準拠した略語で表示しました。
    • 専門分野をPEJVに準拠して墨付き括弧【】で括った略語で表示しました。
    • 同義語≪同≫・類義語≪類≫・反義語≪対≫・関連語≪関≫を表示するようにしました。
  • 【機能追加】辞書に載っていない単語の解析能力を向上しました。versio 1.0.1での大規模な書き直しの際に、不正な解析を防止する処理を実装していましたが、この副作用を取り除くよう対応したものです。例えば解析に失敗していた合成語por/vir/in/aを正しく解析出来るようにしたり、合成語ariakantoをar/i/akant/oではなく正しくari/a/kant/oと解析出来るようにしました。
  • 【機能追加】辞書引き結果の各語根・各接辞の辞書見出しにも、verio 2.0.0で設けた見出し語検索へのリンクを設けました。
  • 【機能追加】辞書引き結果で接頭辞・接尾辞等にも辞書見出し表示行を設けました。内部的には接辞辞書から辞書引きした見出しであり、他の一般単語とは違ってこれまでは存在してない行でしたが、上記見出し語検索リンク表示を行うための統一性を重視した措置です。
  • 【表示変更】各語根や各接辞の音韻行を取り除きました。内部処理で用いるための情報であり、表示するとことで見出し語との差異が出来て紛らわしくなるためです。
  • 【障害対応】辞書に載っていない単語の辞書引き結果で、語根毎の品詞情報に不要な品詞が混ざっていた問題を是正しました(語の品詞は誤っていませんでした)。内部処理で用いていた品詞情報を誤って引き継いでいたものです。例えば品詞派生語ariaの第一語根ariの品詞が形容詞と名詞であったものを形容詞のみとし、合成語porvirinaの第一語根porの品詞が形容詞と定義不能であったものを前置詞としました。
  • 【障害対応】辞書に載っていない熟語の辞書引き結果で、語根区切り(/)が空白文字の前後にも表示されていた問題を是正しました。

見出し語表示は如何にあるべきか

逆向きの訳語生成 

そもそも本サイトのエスペラント単語辞書は『実用エスペラント小辞典(PEJV)』を分解してPerlの複雑なデータ構造に落とし込んだものです。これをさらに(「サーバ引っ越し完了のご挨拶」等で何度か触れているように)Storable::nfreezeでシリアライズしておいて、使用時にはStorable::retrieveして使っています。

もともと形態素解析の一環として造語解析処理のために用いているので、配列やハッシュ(連想配列)が乱れ飛ぶばかりではなく、品詞や専門分野等は内部コードに変換して保存しています。従って、造語解析には遺憾なくその力を発揮しますし、辞書引き機能でも解りやすい結果画面実現のための表組み表示を容易に実現出来ます。

しかし、見出し語検索結果画面では、正にPEJVと同様の表示が求めらます。つまり、本家のオンライン辞書引きと同様の表示が期待されるわけです。せっかく複雑なデータ構造を作っていても、元通りの訳語部に復元しなければなりません。つまり、逆方向の処理が必要になります。今までは「所詮副産物だから」と逃げを打っていましたが、日本語訳語部だけを適当についばんで表示していると、例えば以下のような問題が生じていました。

  • 同義語等のみの訳語部だけを持つ見出し語は訳語列が表示されない状態になる。
  • 品詞情報や専門分野情報が表示されず、一覧の見通しが悪くなる。

流石にこのままではまずかろうという対応を施したのですが、掘った穴をまた埋め戻させる刑罰のような徒労感にさいなまれなかったというと嘘になりそうです。

PEJVの訳語部(デリミタ「:」の右側)全てをそのまま丸ごと保存する策が頭をよぎりましたが、以下のような理由でやめています。

  • 形態素解析用の辞書データ量が膨れ上がってしまう。
  • かといって見出し語検索用の辞書データを別に作るのも面倒である。
  • 単純にPEJVの結果だけを表示したのでは芸がない。
  • 折角なので、多少なりとも解りやすい表示にしてみたい(語義が複数あるものは改行で区切る等)。

優しさで膨れ上がる土 

土木の常識ですが、トンネルを掘って出た土の容積は、掘った容積よりも増します。無論物質量保存の法則は働くのですが、掘り返すと空気が含まれてしまうので、嵩が増してしまうという案配です。モグラが穴を掘れば穴の入り口が盛り上がるモグラ塚が出来ますし、映画で監獄から穴を掘って脱走する際に一番困るのは土の処分です。つまり、穴を掘って埋め戻そうとしても元通りにはならないのです。マルサや刑事が着目するのもこの点で、余程埋め戻した近傍を踏み固めたり、或いは上を覆うなどしない限りは、埋めた場所は特定し易いでしょう。

妙な喩えですが、結果として表示が多少解りやすくなったのであれば、穴を埋め戻して良かったです。それは土に含まれる空気の所為であり、空気とはユーザビリティという柔らかさであるのだと勝手に満足しています。解りやすい表示というものはまだまだ一考の余地がありますけれども。

ともあれ、上記の改版内容の通り、文章内単語訳結果やメール辞書引き結果側でも、より良い表示を模索していくつもりです。なお、併せて修正した合成語porvirinaの解析復活の辺りは微妙に障害対応っぽい香りがしますが、気にしない方が人間長生き出来るというものです(妄言)。

#94 2008/02/17 10:36:48, Gardejo

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

< 脇書非表示 > 脇書表示

Ĉu vi scias?

ondego

過去の記事

2008 年 2 月
« 1 月   3 月 »
 123
45678910
11121314151617
18192021222324
2526272829  

分類

最近の記事

最近のコメント

最近のトラックバック

RSS

メタ情報

Aŭtorrajto: © Organizo por Zona Servo per Sinkrona Solvo. Ĉiuj rajtoj estas rezervitaj.
Copyright: © Organization for Zonal Service with Synchronous Solution. All rights reserved.