9. IPSJ SIG-SLP 雑音下音声認識評価環境 (CENSREC)
9-c. マルチモーダル音声認識評価環境 (CENSREC-1-AV)
データDOI
https://doi.org/10.32130/src.CENSREC-1-AV
提供機関, プロジェクト
(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ
コーパスの内容
- 音声と口唇動画像を用いたバイモーダル音声認識用データ
- 発話内容はCENSREC-1に準拠(連続数字1~7桁の読み上げ)
- 音声とともにカラー映像と近赤外線映像を収録し,ムービーを時系列画像に分解して口唇付近のみ切り出した画像データを含む
- 学習データ
- オフィス環境で収録したクリーン音声・画像データ
- テストデータ
- 学習データと同じ環境の音声・画像データ
- 同梱スクリプトにより生成される音声・画像データ
- 音声 :
- 乗用車走行雑音を重畳(雑音2種類,SNR6種類)
- 画像 :
- 走行中の乗用車内を明度値のガンマ補正によりシミュレート
- 上記音声・画像データを対象とした音声認識実験を評価するための評価ツール
話者数, 発声回数
- 学習データ :
- 42名(男性22名,女性20名),計3,234発話
- テストデータ :
- 51名(男性25名,女性26名),計1,963発話
音声・画像ファイルフォーマット
- 音声 :
- WAV形式(16kHz・16bit・Mono)
- 画像 :
- Windows BMP形式(横81ピクセル×縦55ピクセル,口唇付近のみ) カラー画像-24bitRGB/近赤外線画像-8bitグレースケール
配布媒体
DVD 2枚 もしくは オンライン配布 (※NII-IDRのサイトに飛びます)
利用範囲
研究・開発目的に限る
配布価格
無償
入手方法
CD/DVD版の郵送をご希望の場合:「入手方法」ページ の案内に従いメールでお申し込みください.
オンライン配布をご希望の場合:NII-IDRのサイト のフォームよりお申し込みください.
サンプル音声・画像
音声: CENSREC-1と同様の連続数字1~7桁の読み上げ音声データ
画像: 音声とともに収録した口唇画像データ
更新履歴
2011/06/29 提供開始
2019/03/18 オンライン配布開始