タスク概要

第12回NTCIR(NTCIR-12)タスク選考委員会は、以下の6つのコアタスクと3つのパイロットタスクを選定しました。
タスクの詳細・最新情報は、各タスクのウェブサイトをご覧ください。
※各タスクのお問い合わせ先一覧はこちらをご覧ください。

IMine    MedNLPDoc    MobileClick    SpokenQuery&Doc    Temporalia    MathIRNEW    Lifelog    QA Lab    STC    

コアタスク

Search Intent and Task Mining ("IMine-2")

The NTCIR-12 IMine-2 Task aims to explore and evaluate the technologies of understanding user intents behind the query and satisfying different user intents. The scope of IMine-2 is highly related to search result diversification and federated search, both of them are being actively studied in IR community and commercial search engines. For more information, please visit: http://www.dl.kuis.kyoto-u.ac.jp/imine2/


Medical Natural Language Processing for Clinical Document ("MedNLPDoc")

Recently, medical records are increasingly written on electronic media instead of on paper, thereby increasing the importance of information processing in medical fields. In this proposed core challenge task, participants are supposed to assigning a suitable diagnosis and the corresponding disease code to a clinical case in Japanese. Since this task setting can be formalized as labeling disease name to a medical document by utilizing various natural language processing technologies, we call this task MedNLPDoc. Achievements of this task can be almost directly applied to actual applications both in daily clinical service and in clinical study.

近年,電子カルテの普及につれ,医療分野での情報処理の重要性が増しています.これをうけて,NTCIR MedNLPタスクシリーズは,医療をサポートする実用的なシステムを生み出すことを目指して活動しています.
NTCIR-10では診療データからの固有表現抽出,NTCIR-11では名詞単位での病名のコーディングを扱ってきました.今回NTCIR-12では、私たちは新たなもう一歩進んだ実用的なタスク,日本語の診療データに対し病名コードを付与するタスク,をデザインしました.1つの文章が複数の病名コードを持ちうるので,このタスクは,文章に対するマルチ・ラベリング問題と位置づけられます.今回のタスクで得られる成果は日常診療および研究分野での実際のアプリケーションにほぼそのまま適用できます.

Webpage https://sites.google.com/site/mednlpdoc/

Mobile Information Access ("MobileClick-2")

モバイル端末はWeb検索の手段として広く普及してきていますが, その小さな画面やモバイル検索が行われる状況による制約が大きいため, モバイル情報検索には未だに多くの課題が残されています. 特にデスクトップ検索では一般的な「10件のリンク」から構成される検索結果 は,モバイル検索においてはあまり効果的であるとは言えません. MobileClickタスクは,モバイル機器での検索に適した, 2層の検索結果要約を生成するためのタスクです. 検索システム側で検索結果の要約を行うことによって, モバイルユーザが各々の検索結果をクリックすることなく, 欲しい情報にすぐに直接的にたどり着くことができるようになることを期待して います. 今回のMobileClickタスクでは,情報を重要度順にランキングするiUnit ranking サブタスクと,重要な情報を2層に渡り要約するiUnit summarizationサブタスク を用意しています.


Spoken Query and Spoken Document Retrieval ("SpokenQuery&Doc-2")

NTCIR-12 SpokenQuery&Doc-2では、自由発話音声クエリからの音声ドキュメン ト検索を評価します。テキスト入力による情報検索フレームワークでは、詳述 された長い情報要求を入力することが困難であるという問題点があります。 SpokenQuery&Docでは、これを自由発話音声クエリを利用することで克服するこ とを試みます。音声発話は、人間が日常的に自然に利用している表現手段であ り、思いついたことを即座に表出することができるので、検索システムにとっ て豊富な手がかりとなる長いクエリを容易に与えることができるようになると 考えます。詳細は以下のWebページをご覧ください。
http://www.nlp.cs.tut.ac.jp/ntcir12/


Temporal Information Access ("Temporalia-2")

「NTCIR Temporal Information Access(Temporalia)」は、時間的情報アクセス研究を発展するためのタスクです.文書の適合性を推定するときに「時間」という要因が重要な役割を果たしているという事実を踏まえ,検索エンジンは,より詳細に情報の時間的な側面を考慮する必要があると私達は考えています.NTCIR-11で,検索質問(クエリ)の時間的意図分類とアドホック検索用のテストコレクションを構築し,アジア,ヨーロッパ,北アメリカから9チームがタスクに参加し,合計で35のrunが集まりました.NTCIR-12ではさらに発展させ、検索質問の時間的曖昧性の検出と,検索結果の時間的多様化などの技術的な課題を考慮した2つのサブタスクを設定します.また,言語の選択も拡大し,中国のデータコレクションを追加します.

Website: http://ntcirtemporalia.github.io/
Facebook: https://www.facebook.com/ntcirtemporalia
Twitter: https://twitter.com/ntcirtemporalia

NEWMathematical Information Retrieval (MathIR)

The NTCIR-12 Math-IR Task aims to develop a test collection for evaluating retrieval using queries comprised of keywords and formulae, in order to facilitate and encourage research in mathematical information retrieval (MIR) and its related fields.
http://ntcir-math.nii.ac.jp/

PAGE TOP


パイロットタスク

Lifelog Task ("Lifelog")

Lifelog Taskは、新しいパイロットタスクで、パーソナルライフログデータへのアクセスと検索技術の比較評価を目的としています。本タスクは二つのサブタスクから構成されており、参加者は両サブタスク、もしくは、いずれかのサブタスクのみの参加が可能です。Lifelog Semantic Access Task (LSAT)は、ライフログデータの既知事項検索タスクで、システムのみのAutomatic Runと人手が仲介するInteractive Runの両方を募集します。提出されたRunはオーガナイザによって評価されます。Lifelog Insight Task (LIT)は、探索型タスクで、ライフログデータからの知識抽出技術を対象としています。参加者は、ライフログデータから新しい知見を得るためや、ライフロガーの振り返りの支援、またはデータの可視化に関するツールやインタフェースを開発します。本サブタスクの成果はデモとして発表することを予定しています。Lifelogタスクでは、数名による1-2週間分のライフログデータ(ウェアラブルカメラからの画像や他のセンサーデータ)を提供する予定であり、場所情報、環境情報、活動情報に関するアノテーションを付与する予定です。

Facebook: https://www.facebook.com/NTCIRLifelog
Twitter: https://twitter.com/NTCIRLifelog
Website: http://ntcir-lifelog.computing.dcu.ie/

PAGE TOP


QA Lab for Entrance Exam ("QALab-2")

QA Lab では,現実世界における質問応答への第一歩として,大学入試問題を解くことを目的としています.科目は世界史に限定し,センター試験及び複数の大学の二次試験を対象にしています.試験問題は日本語ですが,全ての問題を英訳し,日本語と英語のどちらでも参加できる環境を整えています.試験問題は,XML形式で提供します.

試験問題の特徴として,以下のものがあります.
1.実世界の問題である
2.周囲の文脈の理解を必要とする問題が多い
3.推論を必要とする問題がある
4.多数の質問形式がある(事実型,穴埋め,正誤判断,論点が複数ある長い論述文,短い論述文など)

知識源として,二社の世界史の教科書およびwikipediaデータを提供しています. 参加者は,それ以外のリソースも自由に使用することができます(報告の必要あり).さらに,自然言語文の真偽判断をサポートするイベントオントロジーや,オープンソースの ベースラインQAシステム(日本語版,英語版),パッセージ検索システムを提供しています.

runは2回行う予定です.最初のrunでは,問題形式を明示的に提供します.参加者は特定の問題形式に対してのみ解答を提出しても構いません.評価結果は問題形式ごとに行います.

Task Website: http://research.nii.ac.jp/qalab/

PAGE TOP


Short Text Conversation Task ("STC")

Task Overview
Natural language conversation between human and computer is one of the most challenging AI problems, which involves language understanding, reasoning, and the use of common sense knowledge. Despite a significant amount of effort on the research in the past decades, the progress on the problem is unfortunately quite limited. One of the major reasons for that is lack of large volume of real conversation data.

In this task, we consider a much simplified version of the problem: one round of conversation formed by two short texts, with the former being an initial post from a user and the latter being a comment given by the computer. We refer to it as short text conversation (STC). Thanks to the extremely large amount of short text conversation data available on social media such as Twitter and Weibo, we anticipate that significant progress could be made in the research on the problem with the use of the big data, much like what has happened in machine translation, community question answering, etc.

Task Definition
As the first step, short text conversation (STC) is defined as an IR task, i.e., retrieval-based STC. A repository of post-comment pairs from Sina Weibo is prepared. Each participating team receives the repository in advance.
1. In the training period, they can build their own conversation system based on IR technologies, using the given post-comment pairs as training data.
2. In the test period (one week), each team is given 50-100 test queries (posts), that have been held out from the repository. Each team is asked to provide a ranked list of ten results (comments) for each query. The comments must be those from the repository.
3. In the evaluation period, the results from all the participating teams are pooled and labeled. Graded relevance IR measures are used for evaluation.

The original Web texts are in Chinese and we provide word segmentation results. Furthermore, to help non-Chinese participants, we provide English translations of the original texts using machine translation. Non-native speakers can get a rough idea of the content from the translations and can still participate in the task.


PAGE TOP


Last modified: 2015-07-24