|
||||||||||||||
|
第6回NTCIRワークショップタスク概要[English]はじめに: NTCIRは、情報検索、言語横断情報アクセス、質問応答などの「情報アクセス技術」研究の評価ワークショップシリーズです。情報アクセス技術の研究基盤として、研究に必要不可欠な大規模かつ再利用可能な実験用データセット、評価指標、研究上のアイディアやより妥当な評価方法について議論し、意見交換できる研究者のフォーラムを共有することによって、これらの研究を促進することを目的としています。「情報アクセス」は、伝統的な文書検索から、利用者による文書中の情報活用までを含みます。プロジェクトの初期から、日本語や東アジア言語のテキストを対象とした研究、アジア諸言語と英語の間の言語横断応用、テキストの中の情報活用技術に力をいれてきました。ワークショップは、およそ1年半に1回開催します。 タスクとテストコレクションの詳細は、各タスクのwebサイトでご案内します。 第6回NTCIRワークショップでは次の4つの研究部門を「タスク」として選択し、また新たな試みとしてパイロットタスクを随時スタートできる体制にしました。また、NTCIR-5に引きつづきパイロットワークショップを設けました。詳しくは下記のリンクから、各タスクの情報をご覧ください。 ○ワークショップのタスク
テストコレクション: CLIRのテストコレクション中の文書データとして、NTCIR-4では1998-1999年出版の、NTCIR-5では2000-2001年出版の中国語(繁体字)、韓国語、日本語、(東アジアで刊行された)英語の新聞記事を用いました。NTCIR-6では、英語を対象文書から除外し、中国語、韓国語、日本語を対象と、英語以外のNTCIR-5と同じ新聞記事を使用した新たなテストコレクションを構築します。中国語(簡体字)データを追加できるかもしれません。NTCIR-6では、NTCIR-3〜-6の4つのテストコレクションを用いて実験を行い、テストコレクション間の評価結果の相違についても検討します。 CLQAのテストコレクションで用いる文書データは、2000-2001年出版の中国語、日本語、英語の新聞記事です。韓国語は検討中です NTCIR-6 PATENTのテストコレクションで用いる文書データは、NTCIR-5 PATENTの日本語特許公報全文10年分のデータと米国特許のデータです。 NTCR-3 PATENT, NTCIR-4 PATENT、NTCIR-5 PATENT(NTCIR-3、NTCIR-4、NTCIR-5の特許タスクで使用したテストコレクション)は、訓練用データとしても、タスクでも使用します。NTCIR-3、NTCIR-4については、別途研究目的用の覚書を提出してください。 NTCIR-6 QACで用いる文書データは、2000-2001年に出版された2紙の日本語新聞記事データです。NTCIR-3 QAC, NTCIR-4 QAC, NTCIR-5 QAC(NTCIR-3,-4,-5のQACタスクで使用したテストコレクション)を、文書データも含め、訓練用データとして配布します。 提出結果と基本評価データ:各タスクごとに、結果を提出した全参加者に、当該タスクに提出された各参加システムの実行結果のすべてと、それらの評価結果(あらかじめ定義した評価指標によるもの)をデータの準備が出来次第、配布します。評価はそれぞれの研究者にとって非常に重要な問題です。評価結果がどのようなものであるか、評価指標がどのように振舞うものであるか、あるいは評価結果のより深い分析などを全員で行い、このNTCIR-6の実験結果についてより詳細で意義のある分析をしたいと思っています。MuSTのテストコレクションでは、1998-1999年出版の日本語新聞記事データを文書データとして用います。 オンライン参加登録を済ませた後、参加希望タスクの覚書の提出が必要です。 |