NTCIRワークショップは、情報検索と、テキスト要約・情報抽出などのテキスト処理技術の研究をより発展させることを目的とした評価会議です。1997年より日本学術学術振興会未来開拓研究事業と学術情報センターの支援をうけ、2000年度は、日本学術学術振興会未来開拓研究事業と国立情報学研究所情報学資源研究センター、2001年度以降は、国立情報学研究所情報学資源研究センターの支援により開催されます。
NTCIRワークショップの目的は、
「評価会議」は、通常、実験用のデータセットと実験結果を評価するための統一された手順が用意されます。評価会議に参加するグループは、それぞれ、NTCIR企画グループが用意したデータを用い、さまざまなアプローチで研究と実験を行います。 情報検索やテキスト処理の研究において、繰り返し実験に利用できる大規模な標準データセットが重要であることは、広く認められており、評価会議は、そのようなデータと研究上のアイディアや技術の交換・移転のための研究者のフォーラムを提供することによって、研究を進めていく、新しいタイプの共同研究です。
第1回NTCIRワークショップは、全体のプロセスは1998年11月の訓練用データ配布から開始し、1999年8月30〜9月1日に東京のKKRホテルで開催した成果報告会で幕を閉じました。第1回ワークショップでは、6カ国28研究グループがタスクを遂行し、その結果を提出しました。 2000年4月からは、同様の目的をもって活動してきたIREXグループと合同し、また、象を日本語と英語だけではなく、アジア言語に拡大し、国立台湾大学の研究グループの協力を得ています。テキスト要約中国語検索などの新しいタスクはこれらの協力関係によって実現しました。第2階ワークショップは、2000年6月から開始し、2001年3月7-9日に、東京の国立情報学研究所で成果報告会を開催しました。8ヶ国45の研究グループがタクスへの参加登録をし、36グループがひとつ以上のタスクの結果を提出しました(表参照)。第3回ワークショップは、2001年8月の参加者募集から始まり、2002年10月に成果報告会を開催する予定です。
NTCIRプロジェクトでは、ごく初期から、「伝統的な実験室型の情報検索システムの評価テスト」と「より新しい課題」という2つの方向を目指してきました。実験室型の評価テストでは、とくに、(1)日本語や他のアジア言語文書の検索(IR)と、(2)言語横断検索に重点をおいています。より新しい課題では、(3)文書検索から「情報」検索へという動きと、(4)より現実的な評価法、たとえば、テキスト要約の評価手法、多段階の適合性判定に適した評価指標、特定の文書タイプやそのタイプの文書をよく利用する利用者の特性やその利用法に適した評価法に関する研究などに力を注いでいます。
第1回ワークショップで使用したテトコレクション1(NTCIR-1)は、日本語と英語文書を用いた情報検索および用語抽出研究用のテストコレクションで、日本国内の65学会の協力を得て、それらの学会の全国大会、研究会などで発表された論文の要旨を集めた「学会発表データベース」の中の33万件ほどを、データベースとして用いています。なお、テストコレクションは「実験用データセット」という意味ですが、情報索では、情報検索システムの検索性能評価に用いるデータベースで、(1)データベース、(2)利用者の検索要求を記述した「検索課題」、(3)検索課題を満たす「正解文書の網羅的なリスト」を含むもので、情報検索システムの研究・開発、評価に必要不可欠です。 情報検索やテキスト処理技術の研究開発に利用できるより多様な実験用データセットを、順次、整備しくとともに、これらの技術の研究を進めていきたいと考えています。
なお、"NTCIR"は、「エンティサイル」と読みます。
今までのワークショップの開催時期、タスク、構築したテストコレクション、参加者数などは、下記のとおりです。
表1 過去のワークショップのタスク、コレクション、参加者数
Work- shop |
期間 | タスク | データ | 参加グ ループ数 |
参加 国数 |
支援 | |||
主分類 | サブタスク | ||||||||
1 | Nov 1999 - Sept 1999 |
随時検索 | J-JE | NTCIR-1 | 3 | 6 | JSPS+ NACSIS |
||
18 | 28 | ||||||||
言語横断検索 | E-J | 10 | 3 | ||||||
用語抽出 | 用語抽出 | 9 | 3 | ||||||
役割分析 | |||||||||
2 | June 2000 - Mar 2001 |
中国語検索 | 単言語(C-C) | CIRB010 | 11 | 36 | 5 | 8 | JSPS+ RCIR/NII |
言語横断(E-C) | |||||||||
日本語・ 英語検索 |
単言語 (J-J, E-E) |
NTCIR-2 | 25 | 5 | |||||
言語横断 (J-E, E-J,J-JE,E-JE) |
|||||||||
テキスト要約 | intrinsic評価- 重要文抽出 |
NTCIR-2 SUMM | 9 | 1 | |||||
intrinsic評価- 自由作成要約 |
|||||||||
Extrinsic評価 IRタスク |
表2.NTCIRワークショップにおいて構築した(あるいは利用可能になった)データと今後の予定(案)
コレクション | タスク | 文書 | 課題/要約 | 研究目的利用 | |
種類 | 言語 | 言語 | |||
NTCIR-1 | 検索 | 学術抄録 | Ja+En | Ja | Yes |
CIRB010 | 検索 | 新聞記事98-9 | Ch | Ch+En | 参加者のみ |
NTCIR-2 | 検索 | 学術抄録 | Ja+En | Ja+En | Yes |
NTCIR-2 SUMM | 要約 | 新聞記事'94-5,98 | Ja | Ja | Yes* |
NTCIR-2TAO | 要約 | 新聞記事 | Ja | Ja | Yes* |
CIRB020+ NTCIR-3CLIR |
検索 | 新聞記事'98-9 | Ch+Ja+En | Ch+Ja+En | NTCIR ワークショップ3 のタスク案 変更の可能性 があります |
NTCIR-3PAT | 検索 | 特許公報'98-9 +抄録'95-9 |
Ja (Full) Ja+En(Abst) |
Ja+En | |
NTCIR-3 QA | Q&A | 新聞記事'98-9 | Ja | Ja | |
NTCIR-3 SUMM | 要約 | 新聞記事'98-9 | Ja | Ja | |
NTCIR-3Web | 検索 | html | Ja+others | Ja |
*要約データのみ。新聞記事は日外アソシエーツより購入。