音声資源コンソーシアム

Speech Resources Consortium

English | 日本語

9. IPSJ SIG-SLP 雑音下音声認識評価環境 (CENSREC)

9-c. マルチモーダル音声認識評価環境 (CENSREC-1-AV)

データDOI

https://doi.org/10.32130/src.CENSREC-1-AV

提供機関, プロジェクト

(社)情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ

コーパスの内容

音声と口唇動画像を用いたバイモーダル音声認識用データ
- 発話内容はCENSREC-1に準拠（連続数字1～7桁の読み上げ）
- 音声とともにカラー映像と近赤外線映像を収録し，ムービーを時系列画像に分解して口唇付近のみ切り出した画像データを含む
- 学習データ
  - オフィス環境で収録したクリーン音声・画像データ
- テストデータ
  - 学習データと同じ環境の音声・画像データ
  - 同梱スクリプトにより生成される音声・画像データ
    
    音声 :
    乗用車走行雑音を重畳（雑音2種類，SNR6種類）
    
    画像 :
    走行中の乗用車内を明度値のガンマ補正によりシミュレート
上記音声・画像データを対象とした音声認識実験を評価するための評価ツール

話者数, 発声回数

学習データ :: 42名（男性22名，女性20名），計3,234発話
テストデータ :: 51名（男性25名，女性26名），計1,963発話

音声・画像ファイルフォーマット

音声 :: WAV形式（16kHz・16bit・Mono）
画像 :: Windows BMP形式（横81ピクセル×縦55ピクセル，口唇付近のみ）カラー画像-24bitRGB／近赤外線画像-8bitグレースケール

配布媒体

DVD 2枚　もしくは　オンライン配布（※NII-IDRのサイトに飛びます）

利用範囲

研究・開発目的に限る

配布価格

無償

入手方法

CD/DVD版の郵送をご希望の場合：「入手方法」ページの案内に従いメールでお申し込みください．

オンライン配布をご希望の場合：NII-IDRのサイトのフォームよりお申し込みください．

サンプル音声・画像

音声: CENSREC-1と同様の連続数字1～7桁の読み上げ音声データ

画像: 音声とともに収録した口唇画像データ

画像データの一例（上:カラー画像，下:近赤外線画像）

更新履歴

2011/06/29　提供開始

2019/03/18　オンライン配布開始

コーパスリストへ