ビデオの索引づけと理解

Name-It プロジェクト

ニュース映像において対応する顔と名前を自動抽出するシステム, Name-Itを開発した. 与えられたニュース映像は, 画像列と, 音声トラックないしはテキスト情報として与えられるトランスクリプトとから構成される. システムは画像列に対しては動画像認識手法, トランスクリプトに対しては自然言語理解手法を適用することにより, 与えられた名前に対応する顔の画像中での検出, あるいは与えられた顔の名前の推定を行うことができる. 本システムにより, 映像の内容情報へのアクセスにおける, 動画像処理/自然言語処理の併用という, マルチモーダルなアプローチの有効性が実証されている. 利用されている技術には, 以下のようなものが含まれている.