アルク

英辞郎 on the WEB
Share | |

【Memo】和英検索はどのように処理されているの?

■ 「英辞郎 on the WEB」の英和検索では、入力されたキーワードが、英和データの見出し語に含まれるものを検索します。複数のキーワードがあっても同様で、それらのキーワードが英和データの見出しのどこかに含まれているものを検索します。では、和英検索は、どのような仕組みで検索しているのでしょうか。

仮にキーワードが、地球温暖化の影響 だったとします。「英辞郎 on the WEB」では、概ね以下のような方法で、和英検索のマッチング(照合)をおこないます。

  • 地球温暖化の影響 地球 | 温暖 | | | 影響 の 5 つのパーツ(トークン)に分解
  • 地球 | 温暖 | | | 影響 を検索キーワードとして和英データの項目見出しの索引 ※ を検索
  • 地球 | 温暖 | | | 影響 のすべてを含み、元の語順どおり(地球温暖化の影響)に並んでいる見出し項目を表示
※ 「英辞郎 on the WEB」の日本語データは、このように分解された形で索引化されています。

この検索結果は、このように表示されます

一般的なウェブ検索のように、キーワードを分解した 地球 | 温暖 | | | 影響 のすべてが、どこかに含まれているものを検索結果として表示するのではなく、これらのすべてのトークンが元のキーワードの語順どおり(地球温暖化の影響)に項目見出し中に並んでいるものを検索結果として表示するという点にご注意ください。

■ 「英辞郎 on the WEB」には、英和データ、和英データともに、索引(インデクス)が用意されています。一般的な全文検索システムや、ウェブ検索のシステムにもこれに類似したものがあります。こうした索引を持つことにより、検索を高速に実行することができます。

また、「英辞郎 on the WEB」の日本語データの索引は、形態素解析という手法を用いて整理された形で用意されています。これが先ほどお話しした、「分解」です。この「分解」(形態素解析処理)されたデータを索引として利用することにより、索引を比較的小さくすることができます。一般的に索引が大きければ大きいほど、検索処理に時間がかかります。そのため小規模な索引を持つことは、検索システムの高速化においては重要なことなのです。

形態素解析処理されたデータを用いた索引を採用することのメリットとして、「検索システムのパフォーマンス向上」以外に「検索精度の向上」がありますが、「英辞郎 on the WEB」では、検索結果の網羅性を重視しています。一般的なウェブ検索では、カメ と検索しても、「カメラ」についてのウェブページは、ほぼ表示されません。これは、カメ (形態素解析しても カメ)を索引に対して、完全一致させているからです(カメ は「カメラ」に対して前方一致ではマッチしますが、完全一致ではマッチしません)。

たとえば、「昨年のデジタルカメラの販売台数は」といったデータは、以下のように分解されて索引となっています。

  • 昨年 | | デジタル | カメラ | | 販売 | 台数 |
一般的なウェブ検索では、このデータを カメ で検索しても、カメラ カメ でに前方一致でマッチングするだけで、完全一致ではないため、ウェブ検索の検索結果としては表示されません。しかし、「英辞郎 on the WEB」では、前方一致によるマッチングも検索結果として採用するので、
  • 昨年 | | デジタル | カメ | | 販売 | 台数 |
……として、マッチングします。実際の「英辞郎 on the WEB」で カメ で検索した場合の検索結果は、こちらでご確認いただけます

■ 索引が形態素解析処理されたデータを元にしているため、キーワード自体にも形態素解析処理して検索を実行します。そのため、キーワードをによっては、期待されるような解析結果を形態素解析処理プログラムが返してくれないこともあるため、検索漏れの生じる場合もありますが、キーワードを変更することにより検索結果が変わってくる場合もございますので、いくつかのパターンでお試しください。