設立の趣旨
音声処理や自然言語処理の研究を進める上で音声・言語データが必要なことは言うまでもありません.それらのデータは多種多様であることが求められます.最近では統計的手法の発達により,大量のデータがシステムの学習のために必要とされるようになりました.音声および言語処理技術の研究が進展したため,現実のデータによってその成果を評価し,それに基づいて新たな研究目標を設定することが可能になったともいえます.一方,音声・言語処理システムの研究・開発を進めるためには,各種の手法を適切に比較・評価することが必要ですが,これを行なう方法としては現在のところ,共通の音声・言語データを用いてこれらの処理を行ない,その結果を比較するという方法以外は知られていません.
このようなことから,共通利用可能な各種・大量の音声・言語データを作成し,その利用体制を整備することは,研究・開発過程での利用および各種の装置やシステムの性能評価の両面から求められています.このような目的に利用される音声・言語データを一般に音声・言語データベースあるいは音声・言語コーパスと呼んでいることは周知の通りです.音声・言語コーパスの必要性やその意義については近年広く認められるようになってきましたが,従来は各研究者が必要に応じて音声データを収録あるいは言語データを収集し,蓄積・利用していました.その作成を個々の研究機関で行なうのは時間的・経済的負担が大きいにもかかわらず,これまでは各研究機関がそれぞれ似たようなものを収集してきました.音声・言語研究および関連する各分野の研究の発展のためには,音声・言語データを作成・収集・蓄積・配布・共有するための共通の枠組を用意することが必要であると考えられるようになりました.
このような背景のもと,米国では1992年にLDC (Linguistic Data Consortium)が設立されています.これは,音声・言語研究に関する国際的なコンソーシアムであり,米国の大学・企業を中心に約100機関余が会員となっています.LDCは既存のデータをCD-ROM化して頒布するとともに,新たな音声・言語データ開発の資金援助を行なっています.ヨーロッパでは,ELRA(European Language Resources Association) が1995年に設立され,音声・言語コーパスの構築・供給体制を確立しています.
英語やヨーロッパの言語に関しては,LDCやELRAの設立によって世界的に音声・言語データが利用可能となってきましたが,日本語に関しては,国内の供給体制が確立されていないだけでなく,海外から利用可能なものは非常に少ない状況です.日本語の音声・言語情報については,国内はもちろんのこと,国内外からの関心が非常に高く,利用可能な日本語の音声・言語情報を入手したいという海外からの要望には十分に応えていないのが現状です.
日本においても,音声・言語データの開発を個々の機関で行なうのではなく,これを系統的かつ一元的に扱う組織を作ることで,大規模な音声・言語データの開発および普及を促進することが必要であることから,1994年にLRSI(言語資源共有計画),1999年にGSK(言語資源共有機構)が設立されましたが,必ずしも期待に応える活動には至りませんでした.GSKは最近NPOとして再発足し,関連プロジェクトへの公的財政支援も得られたため,主にテキストコーパスを対象として活動を開始しました.
国立情報学研究所は,情報学のナショナルセンターとして,また,大学共同利用機関として,情報学という学問分野を深め,情報学による未来価値を創成するとともに,さらに学術情報ネットワークとコンテンツを柱とする学術情報基盤の構築と学術コミュニティ全体への貢献を目指しています.このようなミッションの具体的推進の一環として,情報メディア特に音声メディアの未来価値創成に向けて「音声資源コンソーシアム(SRC: Speech Resources Consortium)」を設置し,GSKと連携してこれを推進します.