第8回NTCIRワークショップタスク概要

第8回NTCIRワークショップでは次の5の研究部門を「タスク」として選択し、またパイロットタスクを随時スタートできる体制にしました。詳しくは下記のリンクから、各タスクの情報をご覧ください。

1. 高度言語横断情報アクセス(ACLIA: Advanced Cross-Lingual Information Access)
　　　(a) 複合的言語横断質問応答サブタスク(CCLQA)
　　　(b) 質問応答向け情報検索サブタスク(IR4QA)
　　　ACLIAの最終目標は、いかなる言語の情報も検索し、利用者が求める形にわかりやすく　　　提示すること。NTCIR-8のALICAでは、質問タイプ分析、質問翻訳、検索、解答抽出、解答の整形といいいたACLIAの全過程に通しで参加（End-to-End)してもよいし、一部のモジュールだけでも参加することができます。ACLIAでは、モジュールごとのグラスボックス評価を可能にし、システムのどの部分に改善が必要を評価する基盤を作ります。また、モジュール同士の組み合わせの相性の良さも検討します。それぞれの得意なモジュール最強の「ドリームチーム」を一緒に探しましょう。IR４QAでは、IRの有効性とACLIAへの貢献という2面から評価し、多段階適合判定用の評価指標を使用します。中日の新聞記事と中英日の質問を使用。

2. 地理・時間情報の検索 (GeoTime: Geotemporal Information Retrieval)
　　　空間・時間情報の検索をします。
　　　日本語、英語を使用。言語を追加について協力の申し出を歓迎します

3. 多言語意見分析 (MOAT: Multilingual Opinion Analysis Task)
　　　あるトピックについての意見が書かれているかどうかを判定します。
　　　今回は、中国語(繁体字, 簡体字）、英語、日本語の新聞記事を使用。
　　　今後、使用する文書データについて、検討します。

4. 特許マイニング (PAT-MN: Patent Mining)
　　　(a) 学術論文分類サブタスク
　　　(b) 技術動向マップ作成サブタスク
　　日本特許、米国特許、論文の自動分類。これらをつかった技術動向特許マップの
　　　自動生成を目指した研究です。

5. 特許翻訳（PAT-MT: Patent Translation)
　　　 (a) 翻訳サブタスク
　　　 (b) 言語横断情報検索サブタスク
　　　 (c) 評価サブタスク
　翻訳サブタスクでは、世界最大規模の日英対訳文データを提供します。
　特許の実務では、言語横断検索への期待が非常に高まっています。言語横断検索では、
　文書翻訳と質問翻訳を組み合わせタBi-directoralが有望なことが知られており、言語横断
　検索の性能向上には機械翻訳は必須となってきました。評価手法についての議論も歓迎です。
　
5. パイロットタスク- (コミュニティ QA: Community QA)
　　　新たな課題、緊急性の高い課題、NTCIR-8への準備のために予備実験が必要な
　　　課題は、随時、プログラム委員会で検討し、パイロットタスクとして実施します。

提出結果と基本評価データ：各タスクごとに、結果を提出した参加者には、当該タスクに提出された全参加システムの実行結果のすべてと、それらの評価結果（あらかじめ定義した評価指標によるもの）を、データの準備が出来次第、配布します。評価はそれぞれの研究者にとって非常に重要な問題です。評価結果がどのようなものであるか、評価指標がどのように振舞うものであるか、あるいは評価結果のより深い分析などを全員で行い、このNTCIR-８の実験結果についてより詳細で意義のある分析をしたいと思っています。

参加申込み方法

オンライン参加登録を済ませた後、参加希望タスクの覚書の提出が必要です。

NTCIRは、情報検索、言語横断情報アクセス、質問応答などの「情報アクセス技術」研究の評価ワークショップシリーズです。情報アクセス技術の研究基盤として、(1) 研究に必要不可欠な大規模かつ再利用可能な実験用データセット、(2) 評価指標、　(3) 研究者のフォーラム: 研究上のアイディアやより妥当な評価方法について議論し、意見交換できる場を共有することによって、これらの研究を促進することを目的としています。

「情報アクセス」は、伝統的な文書検索から、利用者による文書中の情報の活用までを含みます。プロジェクトの初期から、日本語や東アジア言語のテキストを対象とした研究、アジア諸言語と英語の間の言語横断応用、情報活用支援技術に力を入れてきました。膨大な情報集積から知識を紡ぎだす技術を目指します。ワークショップは、およそ1年半に1回開催します。

NTCIRワークショップでは、「タスク」と呼ぶ研究部門がいくつかあります。タスクごとに、タスクオーガナイザがまとめ役となって、どのような実験を行うか、どのような実験用データセット（=テストコレクションといいます）を使うか(作るか）、どのように結果を評価するかなどを議論して決めていきます。関連するタスクがいくつかあつまって「クラスタ」となり、また、タスクの中にいくつかのサブタスクがある場合もあります。皆さんも、積極的に意見をだして、よりよい、タスクにしてください。

タスクとテストコレクションの詳細は、各タスクのwebサイトでご案内します。