情報検索システム評価用テストコレクション構築プロジェクト リンクお問合せNII
NTCIR HOMEへ

サイト内検索

HOME
NTCIRとは
・ワークショップ
NTCIR-11
NTCIR-10
NTCIR-9
NTCIR-8
NTCIR-7
NTCIR-6
NTCIR-5
NTCIR-4
NTCIR-3
NTCIR-2
NTCIR-1
データ/ツール
出版物/会議論文集
関連サイト
メイリングリスト
よくあるお問合せ
お問合せ
プライバシーについて
NTCIR CMS HOME


概要プロジェクト開始時の提案書テストコレクションとは

NTCIR Project

概要

[English]

NTCIRは、情報検索と、テキスト要約・情報抽出などのテキスト処理技術の研究の更なる発展を図るワークショップ型共同研究です。1997年より日本学術学術振興会未来開拓研究事業と学術情報センターの支援をうけ、2000年度は、日本学術学術振興会未来開拓研究事業と国立情報学研究所情報学資源研究センター、2001年度以降は、国立情報学研究所情報学資源研究センターと科学研究費補助金「不均質コンテンツに対する情報活用システムに関する研究(研究課題番号13224087)」の支援により開催されています。

NTCIRの目的は、大きく分けて次の3点にあります。

 1.大規模かつ再利用可能なテストコレクションの構築
注:テストコレクションは(1)データベース、(2)利用者の検索要求を記述した「検索課題」、(3)検索課題を満たす「正解文書の網羅的なリスト」から構成され、「実験用データセット」としての意味を持ちます。

 2.システム間の比較、研究上のアイディアの交換等に寄与する研究者フォーラムの展開

 3.情報アクセス技術の評価手法、評価指標に関する研究の推進

NTCIRの最大の特徴は、評価ワークショップ形式の導入、すなわちテストコレクションと実験結果を評価するための共通の手順を用意し広く提供する点にあります。つまり、NTCIRに参加するグループは、それぞれ、NTCIR企画グループが用意したデータを用い、さまざまなアプローチで研究と実験を行います。情報検索やテキスト処理の研究において、繰り返し実験に利用できる大規模な標準データセットが重要であることは広く認められていますが、NTCIRは、そのようなデータと研究上のアイディアや技術の交換・移転のための研究者フォーラムを提供することによって研究の推進を図る、新しいタイプの共同研究です。またこれら共通のデータに基づく多様な研究と実験により、異なるシステム間の相互比較が共通の基盤上で可能となることもNTCIRの特徴の一つです。

なおNTCIRでは、ごく初期から、「伝統的な実験室型の情報検索システムの評価テスト」と「より新しい課題」という2つの方向を目指してきました。実験室型の評価テストでは、とくに、(1)日本語や他のアジア言語文書の検索(IR)と、(2)言語横断検索に重点をおいています。より新しい課題では、(3)文書検索から「情報」検索へという動きと、(4)より現実的な評価法、たとえば、テキスト要約の評価手法、多段階の適合性判定に適した評価指標、特定の文書タイプやそのタイプの文書をよく利用する利用者の特性やその利用法に適した評価法に関する研究などに力を注いでいます。ワークショップに参加する研究グループを中心とした研究者フォーラムが、これら2つの方向性を持つ活動を支える役割を果たしています。

ワークショップは約1年半を単位としています。

第1回NTCIRワークショップは、1998年11月の訓練用データ配布をもって幕を開けました。6ヶ国28団体がタスクを遂行、結果を提出し、1999年8月30〜9月1日に東京のKKRホテルで成果報告会を開催しました。成果報告会の中では、郵政省通信総合研究所と自然言語処理の研究者が中心になって組織された評価ワークショップIREXとの合同ワークショップが開かれ、類似の研究目的を持つ機関との新たな連携関係がもたらされました。

なお、IREXグループとは2000年4月から合同して活動を展開するようになり、その結果、テキスト要約に関する新たなタスクが実現しました。また国立台湾大学の研究グループとの協力関係が生じた結果、対象が日本語と英語だけでなくアジア言語に拡大し、中国語検索などの新しいタスクが実現しました。

第2回ワークショップは、2000年6月から参加者募集を開始しました。8ヶ国36団体がタスクを遂行、結果を提出し、2001年3月7-9日に、東京の国立情報学研究所で成果報告会を開催しました。

第3回ワークショップは、2001年8月の参加者募集から始まり、結果を提出した9ヶ国65団体の参加の下、2002年10月8-10日に、東京の国立情報学研究所で成果報告会を開催しました。

第4回ワークショップでは参加者募集を2003年3月に開始、結果を提出した10ヶ国74団体が参加し、2004年6月2-4日に成果報告会を開催しました。研究成果の一部はACM Transactions on Asia Language Information ProcessingのNTCIR-4特集号として刊行予定です。

第5回ワークショップでは、言語横断検索、言語横断質問応答、特許検索、質問応答、WEBという研究部門に加え、初めての試みとしてパイロットタスクを設け、動向抽出・可視化技術をとりあげました。2004年9月から参加者募集を開始し、計14ヶ国102団体からの参加登録を受け付けました。結果を提出した12ヶ国87団体の参加の下、2005年12月6-9日に東京の国立情報学研究所で成果報告会を開催予定です。                







テストコレクションは「実験用データセット」という意味で、情報検索では、情報検索システムの検索有効性評価に用いる、正解データを含めた実験用データセットを指します。これは(1)データベース、(2)利用者の検索要求を記述した「検索課題」、(3)検索課題を満たす「正解文書の網羅的なリスト」から構成されており、情報システムの研究・開発、評価に必要不可欠な役割を果たします。情報検索やテキスト処理技術の研究開発に利用できるより多様な実験用テストコレクションを、順次、整備するとともに、これらの技術の研究とその評価手法に関する研究を進めていきたいと考えています。

今までのワークショップにおいて構築されたテストコレクションの概要は次のとおりです。
テストコレクションの一部のデータは、国立情報学研究所から配布を行っており、研究目的での利用が可能です。
詳細については、
覚書データ利用手続き(研究目的用)http://research.nii.ac.jp/ntcir/permission/perm-ja.html
をご覧ください。

表 NTCIRワークショップにおける構築データ及びデータの利用可否
コレクション タスク 文書 課題/要約 研究目的利用
種類 言語 言語
NTCIR-1 検索 学術抄録 日,英
CIRB010 検索 新聞記事1998-1999 中t 中t,英 参加者のみ
NTCIR-2 検索 学術抄録 日,英 日,英
NTCIR-2 SUMM 要約 新聞記事1994-1995,1998 可(要約データのみ)
NTCIR-2TAO 要約 新聞記事 可(要約データのみ)
CIRB020+
NTCIR-3CLIR
検索 新聞記事1998-1999 中t,韓,日,英 中t,韓,日,英 一部参加者のみ(文書データは外部から購入可能)
NTCIR-3PAT 検索 特許公報1998-1999
+抄録1995-1999
日 (Full)
日+英(Abst)
日,英
NTCIR-3 QA QA 新聞記事1998-1999 可(課題データのみ)
NTCIR-3 SUMM 要約 新聞記事1998-1999 可(要約データのみ)
NTCIR-3Web 検索 html 多言語 日(英)
NTCIR-4CLIR 検索 新聞記事1998-1999 中t,韓,日,英 中t,韓,日,英 文書データの一部は参加者のみ
NTCIR-4 PATENT 検索 特許公報1993-2002
+抄録1992-2002
日,英 中t,中s,韓,日,英
NTCIR-4 QA QA 新聞記事1998-1999 可(課題データのみ)
NTCIR-4 SUMM 要約 新聞記事1998-1999 可(要約データのみ)
NTCIR-4 Web 検索 html 多言語 日(英)
中t: 繁体中国語、中s: 簡体中国語、韓: 韓国語、日: 日本語、英: 英語



表1に示した、研究目的で利用可能なテストコレクション(NTCIR-1,2,3,4)については、これまでに計450件以上の配布申込をいただいています(2005年7月時点)。国内に留まらず海外からの申込も多く、また申込機関も、大学、民間、研究所等多岐にわたっています。
またテストコレクションを利用した結果、これまでに約300のNTCIRに関する研究発表が行われてきました(2005年7月時点)。
詳細については、
NTCIRに関する論文リストhttp://research.nii.ac.jp/ntcir/paper1-ja.html
をご覧ください。