■ 「英辞郎 on the WEB」の英和検索では、入力されたキーワードが、英和データの見出し語に含まれるものを検索します。複数のキーワードがあっても同様で、それらのキーワードが英和データの見出しのどこかに含まれているものを検索します。では、和英検索は、どのような仕組みで検索しているのでしょうか。
仮にキーワードが、地球温暖化の影響 だったとします。「英辞郎 on the WEB」では、概ね以下のような方法で、和英検索のマッチング(照合)をおこないます。
■ 「英辞郎 on the WEB」には、英和データ、和英データともに、索引(インデクス)が用意されています。一般的な全文検索システムや、ウェブ検索のシステムにもこれに類似したものがあります。こうした索引を持つことにより、検索を高速に実行することができます。
また、「英辞郎 on the WEB」の日本語データの索引は、形態素解析という手法を用いて整理された形で用意されています。これが先ほどお話しした、「分解」です。この「分解」(形態素解析処理)されたデータを索引として利用することにより、索引を比較的小さくすることができます。一般的に索引が大きければ大きいほど、検索処理に時間がかかります。そのため小規模な索引を持つことは、検索システムの高速化においては重要なことなのです。
形態素解析処理されたデータを用いた索引を採用することのメリットとして、「検索システムのパフォーマンス向上」以外に「検索精度の向上」がありますが、「英辞郎 on the WEB」では、検索結果の網羅性を重視しています。一般的なウェブ検索では、カメ と検索しても、「カメラ」についてのウェブページは、ほぼ表示されません。これは、カメ (形態素解析しても カメ)を索引に対して、完全一致させているからです(カメ は「カメラ」に対して前方一致ではマッチしますが、完全一致ではマッチしません)。
たとえば、「昨年のデジタルカメラの販売台数は」といったデータは、以下のように分解されて索引となっています。
■ 索引が形態素解析処理されたデータを元にしているため、キーワード自体にも形態素解析処理して検索を実行します。そのため、キーワードをによっては、期待されるような解析結果を形態素解析処理プログラムが返してくれないこともあるため、検索漏れの生じる場合もありますが、キーワードを変更することにより検索結果が変わってくる場合もございますので、いくつかのパターンでお試しください。