29. 日本語多話者オーディオブックコーパス (J-MAC)

データDOI

https://doi.org/10.32130/src.J-MAC

提供機関, プロジェクト

東京大学 高道慎之介 先生

コーパスの内容

市販のオーディオブックの時間対応付きテキストデータ.大量の市販品の中から音声合成研究に適するものを選択した,小説24作品のオーディオブック延べ74点について,章や段落に構造化し振り仮名を付与したテキストに,文単位での発話者や時間情報を付与したもの.

※注意:本コーパスに音声データは含まれておらず,別途販売元より購入いただく必要があります.

(販売元の情報はコーパス内に含まれています.本コーパスの配布は販売元の許諾を得ています)

話者数

プロ話者39名

音声ファイルフォーマット

(音声ファイルは含まれません)

配布形態

CD 1枚 もしくは オンライン配布 (※NII-IDRのサイトに飛びます)

利用範囲

研究目的に限る

配布価格

無償

入手方法

CD/DVD版の郵送をご希望の場合:「入手方法」ページ の案内に従いメールでお申し込みください.

オンライン配布をご希望の場合:NII-IDRのサイト のフォームよりお申し込みください.

詳細情報

https://sites.google.com/site/shinnosuketakamichi/research-topics/j-mac_corpus

サンプルデータ

「セロ弾きのゴーシュ」(作・宮沢賢治):

chapt000:
  parag016:
    style000:
    - character: narrative
      sent: ゴーシュの畑からとった、半分熟したトマトを、さも重そうに持って来て、ゴーシュの前におろして云いました。
      time: [383.12, 391.795]
      to whom: narrative
    style001:
    - character: 猫
      sent: 「ああくたびれた。
      time: [392.25, 394.395]
      to whom: ゴーシュ
    - character: 猫
      sent: なかなか、[運搬|うんぱん]はひどいやな。」
      time: [394.42, 397.575]
      to whom: ゴーシュ
    style002:
    - character: ゴーシュ
      sent: 「[何|なん]だと」
      time: [397.6, 398.715]
      to whom: 猫
    style003:
    - character: narrative
      sent: ゴーシュがききました。
      time: [398.74, 400.575]
      to whom: narrative

更新履歴

2021/07/12 提供開始

2022/03/29 テキストデータに発話者("character", "to whom")の項目を追加

コーパスリストへ