29. 日本語多話者オーディオブックコーパス (J-MAC)
データDOI
https://doi.org/10.32130/src.J-MAC
提供機関, プロジェクト
東京大学 高道慎之介 先生
コーパスの内容
市販のオーディオブックの時間対応付きテキストデータ.大量の市販品の中から音声合成研究に適するものを選択した,小説24作品のオーディオブック延べ74点について,章や段落に構造化し振り仮名を付与したテキストに,文単位での発話者や時間情報を付与したもの.
※注意:本コーパスに音声データは含まれておらず,別途販売元より購入いただく必要があります.
(販売元の情報はコーパス内に含まれています.本コーパスの配布は販売元の許諾を得ています)
話者数
プロ話者39名
音声ファイルフォーマット
(音声ファイルは含まれません)
配布形態
CD 1枚 もしくは オンライン配布 (※NII-IDRのサイトに飛びます)
利用範囲
研究目的に限る
配布価格
無償
入手方法
CD/DVD版の郵送をご希望の場合:「入手方法」ページ の案内に従いメールでお申し込みください.
オンライン配布をご希望の場合:NII-IDRのサイト のフォームよりお申し込みください.
詳細情報
https://sites.google.com/site/shinnosuketakamichi/research-topics/j-mac_corpus
サンプルデータ
「セロ弾きのゴーシュ」(作・宮沢賢治):
chapt000:
parag016:
style000:
- character: narrative
sent: ゴーシュの畑からとった、半分熟したトマトを、さも重そうに持って来て、ゴーシュの前におろして云いました。
time: [383.12, 391.795]
to whom: narrative
style001:
- character: 猫
sent: 「ああくたびれた。
time: [392.25, 394.395]
to whom: ゴーシュ
- character: 猫
sent: なかなか、[運搬|うんぱん]はひどいやな。」
time: [394.42, 397.575]
to whom: ゴーシュ
style002:
- character: ゴーシュ
sent: 「[何|なん]だと」
time: [397.6, 398.715]
to whom: 猫
style003:
- character: narrative
sent: ゴーシュがききました。
time: [398.74, 400.575]
to whom: narrative
更新履歴
2021/07/12 提供開始
2022/03/29 テキストデータに発話者("character", "to whom")の項目を追加