Q:その空を飛んでいるのが、検出された画像ですか?

廣池:
そうです。そして、その中の1枚をさらに指定してやると、さらに検索がかかり、似た画像がまた検出されます。この操作を繰り返していきますと、最終的には検索者が持っているイメージに最も近い画像を選び出すことができます。
新しく選んだ画像は新しい画像群を生み出し、また青空を飛び交っている。
一件、ランダムのように見えるその画面は見ていて、非常におもしろい。「メダカの群のようだ」といった人もいたそうである。
|
Q:具体的には、どのように類似画像を選んでいるのですか

廣池:
文書検索の場合、文字の書類やデータはそれ自身が「キーワード」を持っていますので、そのキーワードを手がかりにして関連する文書を探します。画像の場合、そのキーワードに相当するものが「画像特徴量」です。これを用いて類似画像を選んでいきます。
|
Q:「画像特徴量」というのは

廣池:
「画像特徴量」は色合い、形状など画像自体から取り出した数値情報です。蓄積した画像すべてについて、色合い、形状といった情報を「画像特徴量」として保存しておきます。画像特徴量は100次元程度、つまり特徴を表すファクターが100種類程度にしてあります。ある画像データが指定されたとき、その固有の「画像特徴量」と蓄積されている画像データすべての「画像特徴量」を比較し、両者の類似度を計算して、類似度の高い順番を決定し選びます。それにより、視覚的にも色合い、形状の似た画像が選ばれます。
|
Q:色合い、形状はどのように数値化するのですか

廣池:
少し専門的になりますが、色合いはRGB色空間を立方格子状の領域に分割して、各領域に含まれる画素値の相対頻度を算出することによって、画像全体の色分布をヒストグラム化して色分布に基づく特徴量としてあらわします。形状はもとの画像をグレースケールに変換した後、微分処理を行うと、明るさの変化方向をあらわす輝度勾配ベクトルを要素とする画像が得られます。この画像から輝度勾配分布に基づく特徴量としてあらわします。
|


画像特徴量の構成

※クリックして説明図をご覧下さい
|
Q:一見して全然違う画像もピックアップされているようですが?

廣池:
ノイズですね。ノイズを減らす手は色々ありますけど、全くノイズをゼロにするのは不可能です。そもそも、どれをノイズと感じるかも人によって異なりますし。今、お見せしているシステムでは、なるべくたくさんの画像の中から目指すものを選べるようにと、少々のノイズを許容しています。ユーザの選択の範囲を大きくとっておきたいということですね。
|
Q:いままでは、画像の検索はどうしていたのですか?

廣池:
通常は、日付とかファイル名だけが頼りでしょう。商用のデータでは、各画像に検索用のキーワード付けて、それで検索する、というのが一般的です。「類似性検索技術」では検索用の情報は、データ登録時に画像そのものから自動抽出されます。従って、検索用の情報を付けるという煩雑な作業はありません。
|