設立の趣旨

音声処理や自然言語処理の研究を進める上で音声・言語データが必要なことは言うまでもありません.それらのデータは多種多様であることが求められます.最近では統計的手法の発達により,大量のデータがシステムの学習のために必要とされるようになりました.音声および言語処理技術の研究が進展したため,現実のデータによってその成果を評価し,それに基づいて新たな研究目標を設定することが可能になったともいえます.一方,音声・言語処理システムの研究・開発を進めるためには,各種の手法を適切に比較・評価することが必要ですが,これを行なう方法としては現在のところ,共通の音声・言語データを用いてこれらの処理を行ない,その結果を比較するという方法以外は知られていません.

このようなことから,共通利用可能な各種・大量の音声・言語データを作成し,その利用体制を整備することは,研究・開発過程での利用および各種の装置やシステムの性能評価の両面から求められています.このような目的に利用される音声・言語データを一般に音声・言語データベースあるいは音声・言語コーパスと呼んでいることは周知の通りです.音声・言語コーパスの必要性やその意義については近年広く認められるようになってきましたが,従来は各研究者が必要に応じて音声データを収録あるいは言語データを収集し,蓄積・利用していました.その作成を個々の研究機関で行なうのは時間的・経済的負担が大きいにもかかわらず,これまでは各研究機関がそれぞれ似たようなものを収集してきました.音声・言語研究および関連する各分野の研究の発展のためには,音声・言語データを作成・収集・蓄積・配布・共有するための共通の枠組を用意することが必要であると考えられるようになりました.

このような背景のもと,米国では1992年にLDC (Linguistic Data Consortium)が設立されています.これは,音声・言語研究に関する国際的なコンソーシアムであり,米国の大学・企業を中心に約100機関余が会員となっています.LDCは既存のデータをCD-ROM化して頒布するとともに,新たな音声・言語データ開発の資金援助を行なっています.ヨーロッパでは,ELRA(European Language Resources Association) が1995年に設立され,音声・言語コーパスの構築・供給体制を確立しています.

英語やヨーロッパの言語に関しては,LDCやELRAの設立によって世界的に音声・言語データが利用可能となってきましたが,日本語に関しては,国内の供給体制が確立されていないだけでなく,海外から利用可能なものは非常に少ない状況です.日本語の音声・言語情報については,国内はもちろんのこと,国内外からの関心が非常に高く,利用可能な日本語の音声・言語情報を入手したいという海外からの要望には十分に応えていないのが現状です.

日本においても,音声・言語データの開発を個々の機関で行なうのではなく,これを系統的かつ一元的に扱う組織を作ることで,大規模な音声・言語データの開発および普及を促進することが必要であることから,1994年にLRSI(言語資源共有計画),1999年にGSK(言語資源共有機構)が設立されましたが,必ずしも期待に応える活動には至りませんでした.GSKは最近NPOとして再発足し,関連プロジェクトへの公的財政支援も得られたため,主にテキストコーパスを対象として活動を開始しました.

国立情報学研究所は,情報学のナショナルセンターとして,また,大学共同利用機関として,情報学という学問分野を深め,情報学による未来価値を創成するとともに,さらに学術情報ネットワークとコンテンツを柱とする学術情報基盤の構築と学術コミュニティ全体への貢献を目指しています.このようなミッションの具体的推進の一環として,情報メディア特に音声メディアの未来価値創成に向けて「音声資源コンソーシアム(SRC: Speech Resources Consortium)」を設置し,GSKと連携してこれを推進します.

目的

本事業は,音声に関わる学術・教育・産業等の発展に必要な電子データおよびソフトウエアツールの収集・配布・調査・研究・標準化等を行い,これを通じて情報社会の発展に寄与することを目的とします.

事業内容

  1. 既存の音声資源の調査とカタログ化
  2. 音声資源の本事業への提供依頼
  3. 音声資源の広報・配布・普及活動
  4. 音声資源の標準化
  5. 音声資源の収集・配布に関する標準的契約書の作成
  6. 高需要既存音声資源の増刷・配布
  7. 配布済み資源の改訂版の作成・再配布
  8. 音声資源の解析・加工
  9. 新しい音声資源の設計・構築
  10. 音声資源に関する調査・研究
  11. 外国の類似の機関との提携
  12. その他,本事業の目的を達成するために必要な事業

組織

国立情報学研究所
 └ データセット共同利用研究開発センター
  └ 音声資源コンソーシアム

メンバー

教授
山岸 順一
特任研究員
大須賀 智子
事務補佐員
野澤 綾子
アドバイザー
板橋 秀一
小野 順貴
石本 祐一

委員会

本事業に関連の深い研究者等から成る「音声コーパス推進委員会」を設置し,本事業の推進を図ります.委員には音声言語情報処理,言語学・音声学,法学,音声データ作成業務,音声データ提供者等の関係者を含めます.

天野 成昭
愛知淑徳大学 人間情報学部 教授
荒木 章子
NTTコミュニケーション科学基礎研究所 メディア情報研究部 主幹研究員
井佐原 均
追手門学院大学 心理学部 教授
石本 祐一
ものつくり大学 技能工芸学部 准教授
内元 清貴
情報通信研究機構 ユニバーサルコミュニケーション研究所 研究所長
大須賀 智子
国立情報学研究所 データセット共同利用研究開発センター 特任研究員
小野 順貴
東京都立大学 システムデザイン学部 教授
籠嶋 岳彦
株式会社東芝 研究開発センター 知能化システム研究所 コラボレイティブAIラボラトリー フェロー
菊池 英明
早稲田大学 人間科学学術院 教授
北岡 教英
豊橋技術科学大学 情報・知能工学系 教授
小磯 花絵
国立国語研究所 研究系 教授・副所長
小山 翔一
国立情報学研究所 コンテンツ科学研究系 准教授
Sakriani Sakti
奈良先端科学技術大学院大学 先端科学技術研究科 情報科学領域 教授
橋田 浩一
理化学研究所 革新知能統合研究センター 社会における人工知能研究グループ 分散型ビッグデータチーム チームリーダー
速水 悟
早稲田大学 研究院 教授
松井 知子
統計数理研究所 学際統計数理研究系 主幹・教授
峯松 信明
東京大学 大学院工学系研究科 教授
山岸 順一
国立情報学研究所 コンテンツ科学研究系 教授
山本 仁
日本電気株式会社 データサイエンスラボラトリー 研究マネージャー

(2024年5月現在)

ページトップへ