設立の趣旨

音声処理や自然言語処理の研究を進める上で音声・言語データが必要なことは言うまでもありません.それらのデータは多種多様であることが求められます.最近では統計的手法の発達により,大量のデータがシステムの学習のために必要とされるようになりました.音声および言語処理技術の研究が進展したため,現実のデータによってその成果を評価し,それに基づいて新たな研究目標を設定することが可能になったともいえます.一方,音声・言語処理システムの研究・開発を進めるためには,各種の手法を適切に比較・評価することが必要ですが,これを行なう方法としては現在のところ,共通の音声・言語データを用いてこれらの処理を行ない,その結果を比較するという方法以外は知られていません.

このようなことから,共通利用可能な各種・大量の音声・言語データを作成し,その利用体制を整備することは,研究・開発過程での利用および各種の装置やシステムの性能評価の両面から求められています.このような目的に利用される音声・言語データを一般に音声・言語データベースあるいは音声・言語コーパスと呼んでいることは周知の通りです.音声・言語コーパスの必要性やその意義については近年広く認められるようになってきましたが,従来は各研究者が必要に応じて音声データを収録あるいは言語データを収集し,蓄積・利用していました.その作成を個々の研究機関で行なうのは時間的・経済的負担が大きいにもかかわらず,これまでは各研究機関がそれぞれ似たようなものを収集してきました.音声・言語研究および関連する各分野の研究の発展のためには,音声・言語データを作成・収集・蓄積・配布・共有するための共通の枠組を用意することが必要であると考えられるようになりました.

このような背景のもと,米国では1992年にLDC (Linguistic Data Consortium)が設立されています.これは,音声・言語研究に関する国際的なコンソーシアムであり,米国の大学・企業を中心に約100機関余が会員となっています.LDCは既存のデータをCD-ROM化して頒布するとともに,新たな音声・言語データ開発の資金援助を行なっています.ヨーロッパでは,ELRA(European Language Resources Association) が1995年に設立され,音声・言語コーパスの構築・供給体制を確立しています.

英語やヨーロッパの言語に関しては,LDCやELRAの設立によって世界的に音声・言語データが利用可能となってきましたが,日本語に関しては,国内の供給体制が確立されていないだけでなく,海外から利用可能なものは非常に少ない状況です.日本語の音声・言語情報については,国内はもちろんのこと,国内外からの関心が非常に高く,利用可能な日本語の音声・言語情報を入手したいという海外からの要望には十分に応えていないのが現状です.

日本においても,音声・言語データの開発を個々の機関で行なうのではなく,これを系統的かつ一元的に扱う組織を作ることで,大規模な音声・言語データの開発および普及を促進することが必要であることから,1994年にLRSI(言語資源共有計画),1999年にGSK(言語資源共有機構)が設立されましたが,必ずしも期待に応える活動には至りませんでした.GSKは最近NPOとして再発足し,関連プロジェクトへの公的財政支援も得られたため,主にテキストコーパスを対象として活動を開始しました.

国立情報学研究所は,情報学のナショナルセンターとして,また,大学共同利用機関として,情報学という学問分野を深め,情報学による未来価値を創成するとともに,さらに学術情報ネットワークとコンテンツを柱とする学術情報基盤の構築と学術コミュニティ全体への貢献を目指しています.このようなミッションの具体的推進の一環として,情報メディア特に音声メディアの未来価値創成に向けて「音声資源コンソーシアム(SRC: Speech Resources Consortium)」を設置し,GSKと連携してこれを推進します.

目的

本事業は,音声に関わる学術・教育・産業等の発展に必要な電子データおよびソフトウエアツールの収集・配布・調査・研究・標準化等を行い,これを通じて情報社会の発展に寄与することを目的とします.

事業内容

  1. 既存の音声資源の調査とカタログ化
  2. 音声資源の本事業への提供依頼
  3. 音声資源の広報・配布・普及活動
  4. 音声資源の標準化
  5. 音声資源の収集・配布に関する標準的契約書の作成
  6. 高需要既存音声資源の増刷・配布
  7. 配布済み資源の改訂版の作成・再配布
  8. 音声資源の解析・加工
  9. 新しい音声資源の設計・構築
  10. 音声資源に関する調査・研究
  11. 外国の類似の機関との提携
  12. その他,本事業の目的を達成するために必要な事業

組織

国立情報学研究所
 └ データセット共同利用研究開発センター
  └ 音声資源コンソーシアム

メンバー

准教授
小野 順貴
准教授
山岸 順一
特任研究員
大須賀 智子
事務補佐員
堀内 マリ香
アドバイザー
板橋 秀一
石本 祐一

委員会

本事業に関連の深い研究者等から成る「音声コーパス推進委員会」を設置し,本事業の推進を図ります.委員には音声言語情報処理,言語学・音声学,法学,音声データ作成業務,音声データ提供者等の関係者を含めます.

赤嶺 政巳
東芝リサーチ・コンサルティング株式会社 シニアフェロー
天野 成昭
愛知淑徳大学 人間情報学部 教授
荒木 章子
NTTコミュニケーション科学基礎研究所 メディア情報研究部 主任研究員
井佐原 均
豊橋技術科学大学 情報メディア基盤センター 教授
石本 祐一
国立国語研究所 コーパス開発センター 特任助教
板橋 秀一
筑波大学 名誉教授
内元 清貴
(独)情報通信研究機構 先進的音声翻訳研究開発推進センター 企画室長
大須賀 智子
国立情報学研究所 データセット共同利用研究開発センター 特任研究員
小野 順貴
国立情報学研究所 情報学プリンシプル研究系 准教授
神門 典子
国立情報学研究所 情報社会相関研究系 教授
菊池 英明
早稲田大学 人間科学学術院 教授
武田 一哉
名古屋大学 未来社会創造機構 教授
中村 哲
奈良先端科学技術大学院大学 情報科学研究科 教授
橋田 浩一
東京大学 大学院情報理工学系研究科 教授
花沢 健
日本電気株式会社 データサイエンス研究所 研究部長
速水 悟
岐阜大学 工学部 教授/知能科学研究センター センター長
前川 喜久雄
国立国語研究所 音声言語研究領域 教授
松井 知子
統計数理研究所 モデリング研究系 研究主幹・教授
峯松 信明
東京大学 大学院工学系研究科 教授
山岸 順一
国立情報学研究所 コンテンツ科学研究系 准教授

(2017年4月1日更新)

ページトップへ