インターネットの検索システムの要素技術

インターネットの検索システムは大きく、ディレクトリ型とロボット型に別れる。ディレクトリ型は、人間の手によってサイトを分類し、検索を行えるようにする方式で、Yahoo が代表的である。ロボット型はクローラーと呼ばれるロボットを使用して世界中のサイトを情報を収集し、インデックスを作成し、検索を行えるようにする方式で、Google が最も有名である。さらに Google では PageRank というアルゴリズムを使用して、ページの重要度よってランク付けを行い、検索の精度を高めている。一般に検索サイトは検索キーワードを入力するフィールドを用意し、ユーザが検索を実行すると検索アルゴリズムに基づいて事前にクローラーによって作成された検索インデックスから検索を行い、検索結果を画面に表示する。

■ インデックシング

インデックシングとは全文検索を行うために、事前に索引（インデックス）の作成を行うことである。代表的なインデックシングの方式としては、文章を単語に分割してインデックスを作成する形態素解析方式と、文章を一定の文字数で文章を分割し、インデックスを作成する N-gram の2つがある。(分割する文字数が1文字の場合はuni-gram、2文字の場合はbi-gram、3文字の場合はtri-gramと呼ぶ)
形態素解析方式は、日本語の場合、英語と違って単語が空白で区切られていないため、日本独自の形態素解析技術と形態素解析用の辞書を使用して単語の抽出する必要がある。形態素解析技術では Chasen、MeCab 、形態素解析用の辞書としては奈良先端科学技術大学院大学 NAIST-jdic が有名である。形態素解析とN-gramを比較した場合、インデクシングの速度はN-gram 方式のほうが圧倒的に早いが、検索速度や検索精度は形態素解析の方が優れている傾向がある。

■ 局所特徴量を用いた画像検索

局所特徴量を用いた画像検索とは、画像の一部分から（例えば目、鼻、口の位置、輪郭など）機械的に特徴量を抽出し、画像検索を行う仕組みで、局所特徴量の抽出技術としては SURF, SIFT などが有名である。SURF は OpenCV にも搭載されている。局所特徴量を用いた画像検索は、特徴量抽出技術と特徴量照合技術を組み合わせて行う。

一般に局所特徴量を用いた画像検索は以下の流れで行われる。

ユーザインタフェースから検索対象の画像の取得する
グレースケールなど特徴量抽出しやすいように画像の補正を行う。
特徴量抽出モジュールを使用して特徴を抽出する。
特徴量照合モジュールを使用してパターンを特定する。
特定されたパターンに合致する画像を検索結果として表示する。

局所特徴量を用いた画像検索のメリットとしては、サイズが多少変わったり、画像の一部が隠れていても検索が可能なことがあげられる。

iroha Tech Note

備忘録です。HTML5/JS、Electron(旧Atom-Shell), NW.js(旧node-webkit)、Adobe AIR/Flex、標準化の話などを中心に、日々学んだことを書いていきます。

インターネットの検索システムの要素技術

関連記事:

コメントを残すコメントをキャンセル

関連記事:

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル