概要


NTCIR ワークショップ

NTCIRプロジェクトのトップページ      プロジェクト開始時の提案書       

NTCIRワークショップは、情報検索と、テキスト要約・情報抽出などのテキスト処理技術の研究をより発展させることを目的とした評価会議です。1997年より日本学術学術振興会未来開拓研究事業と学術情報センターの支援をうけ、2000年度は、日本学術学術振興会未来開拓研究事業と国立情報学研究所情報学資源研究センター、2001年度以降は、国立情報学研究所情報学資源研究センターの支援により開催されます。

NTCIRワークショップの目的は、

  1. 繰り返し利用できる大規模な実験用データセットと、システム間の比較を可能にする共通の評価枠組みを提供することによって、情報検索やテキスト処理技術と関連領域の研究の一層の発展を図る
  2. システム間の比較、研究上のアイディアの交換などを行う研究者フォーラムを作る
  3. 情報検索やテキスト処理技術の評価手法および繰り返し実験に利用可能な大規模データセット構築法について研究を行う

「評価会議」は、通常、実験用のデータセットと実験結果を評価するための統一された手順が用意されます。評価会議に参加するグループは、それぞれ、NTCIR企画グループが用意したデータを用い、さまざまなアプローチで研究と実験を行います。 情報検索やテキスト処理の研究において、繰り返し実験に利用できる大規模な標準データセットが重要であることは、広く認められており、評価会議は、そのようなデータと研究上のアイディアや技術の交換・移転のための研究者のフォーラムを提供することによって、研究を進めていく、新しいタイプの共同研究です。

第1回NTCIRワークショップは、全体のプロセスは1998年11月の訓練用データ配布から開始し、1999年8月30〜9月1日に東京のKKRホテルで開催した成果報告会で幕を閉じました。第1回ワークショップでは、6カ国28研究グループがタスクを遂行し、その結果を提出しました。 2000年4月からは、同様の目的をもって活動してきたIREXグループと合同し、また、象を日本語と英語だけではなく、アジア言語に拡大し、国立台湾大学の研究グループの協力を得ています。テキスト要約中国語検索などの新しいタスクはこれらの協力関係によって実現しました。第2階ワークショップは、2000年6月から開始し、2001年3月7-9日に、東京の国立情報学研究所で成果報告会を開催しました。8ヶ国45の研究グループがタクスへの参加登録をし、36グループがひとつ以上のタスクの結果を提出しました(表参照)。第3回ワークショップは、2001年8月の参加者募集から始まり、2002年10月に成果報告会を開催する予定です。

NTCIRプロジェクトでは、ごく初期から、「伝統的な実験室型の情報検索システムの評価テスト」と「より新しい課題」という2つの方向を目指してきました。実験室型の評価テストでは、とくに、(1)日本語や他のアジア言語文書の検索(IR)と、(2)言語横断検索に重点をおいています。より新しい課題では、(3)文書検索から「情報」検索へという動きと、(4)より現実的な評価法、たとえば、テキスト要約の評価手法、多段階の適合性判定に適した評価指標、特定の文書タイプやそのタイプの文書をよく利用する利用者の特性やその利用法に適した評価法に関する研究などに力を注いでいます。

第1回ワークショップで使用したテトコレクション1(NTCIR-1)は、日本語と英語文書を用いた情報検索および用語抽出研究用のテストコレクションで、日本国内の65学会の協力を得て、それらの学会の全国大会、研究会などで発表された論文の要旨を集めた「学会発表データベース」の中の33万件ほどを、データベースとして用いています。なお、テストコレクションは「実験用データセット」という意味ですが、情報索では、情報検索システムの検索性能評価に用いるデータベースで、(1)データベース、(2)利用者の検索要求を記述した「検索課題」、(3)検索課題を満たす「正解文書の網羅的なリスト」を含むもので、情報検索システムの研究・開発、評価に必要不可欠です。 情報検索やテキスト処理技術の研究開発に利用できるより多様な実験用データセットを、順次、整備しくとともに、これらの技術の研究を進めていきたいと考えています。

なお、"NTCIR"は、「エンティサイル」と読みます。

今までのワークショップの開催時期、タスク、構築したテストコレクション、参加者数などは、下記のとおりです。

表1 過去のワークショップのタスク、コレクション、参加者数

Work-
shop
期間 タスク データ 参加グ
ループ数
参加
国数
支援
主分類 サブタスク
1 Nov 1999
- Sept 1999
随時検索 J-JE NTCIR-1 3 6 JSPS+
NACSIS
18 28
言語横断検索 E-J 10 3
用語抽出 用語抽出 9 3
役割分析
2 June 2000
- Mar 2001
中国語検索 単言語(C-C) CIRB010 11 36 5 8 JSPS+
RCIR/NII
言語横断(E-C)
日本語・
英語検索
単言語
(J-J, E-E)
NTCIR-2 25 5
言語横断 (J-E,
E-J,J-JE,E-JE)
テキスト要約 intrinsic評価-
重要文抽出
NTCIR-2 SUMM 9 1
intrinsic評価-
自由作成要約
Extrinsic評価
IRタスク

表2.NTCIRワークショップにおいて構築した(あるいは利用可能になった)データと今後の予定(案)

コレクション タスク 文書 課題/要約 研究目的利用
種類 言語 言語
NTCIR-1 検索 学術抄録 Ja+En Ja Yes
CIRB010 検索 新聞記事98-9 Ch Ch+En 参加者のみ
NTCIR-2 検索 学術抄録 Ja+En Ja+En Yes
NTCIR-2 SUMM 要約 新聞記事'94-5,98 Ja Ja Yes*
NTCIR-2TAO 要約 新聞記事 Ja Ja Yes*
CIRB020+
NTCIR-3CLIR
検索 新聞記事'98-9 Ch+Ja+En Ch+Ja+En NTCIR
ワークショップ3
のタスク案

変更の可能性
があります
NTCIR-3PAT 検索 特許公報'98-9
+抄録'95-9
Ja (Full)
Ja+En(Abst)
Ja+En
NTCIR-3 QA Q&A 新聞記事'98-9 Ja Ja
NTCIR-3 SUMM 要約 新聞記事'98-9 Ja Ja
NTCIR-3Web 検索 html Ja+others Ja

*要約データのみ。新聞記事は日外アソシエーツより購入。