ビデオの索引づけと理解

Name-It プロジェクト

ニュース映像において対応する顔と名前を自動抽出するシステム, Name-Itを開発した. 与えられたニュース映像は, 画像列と, 音声トラックないしはテキスト情報として与えられる トランスクリプトとから構成される. システムは画像列に対しては動画像認識手法, トランスクリプトに対しては自然言語理解手法を適用することにより, 与えられた名前に対応する顔の画像中での検出, あるいは与えられた顔の名前の推定を行うことができる. 本システムにより, 映像の内容情報へのアクセスにおける, 動画像処理/自然言語処理の併用という, マルチモーダルなアプローチの有効性が実証されている. 利用されている技術には, 以下のようなものが含まれている.

実験結果

5時間分のCNN Headline Newsを処理

clinton.jpg

図 1. 名前による顔の検索 ("CLINTON" が与えられた場合)

christopher.jpg

  1. WARREN 0.177633
  2. CHRISTOPHER 0.032785
  3. BEGINNING 0.0232368
  4. CONGRESS 0.0220912
図 2. 顔による名前の検索 (Warren Christopherの顔が与えられた場合)


文献


関連リンク


Last modified: Wed Mar 17 1999.
Shin'ichi Satoh


satoh@rd.nacsis.ac.jp