[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-5 CLQAタスクでは、日本語、中国語、英語を対象にして、下記の5種類のサブタスクの評価を行った。
J-E subtask : 日本語の質問に対し、英語の新聞記事から答えを探し、英語で回答する。
E-J subtask : 英語の質問に対し、日本語の新聞記事から答えを探し、日本語で回答する。
C-E subtask : 中国語の質問に対し、英語の新聞記事から答えを探し、英語で回答する。
E-C subtask : 英語の質問に対し、中国語の新聞記事から答えを探し、中国語で回答する。
C-C subtask : 中国の質問に対し、中国語の新聞記事から答えを探し、中国語で回答する。
参加者は、200〜300問のサンプルQAデータによりシステムを開発し、フォーマルランデータでは、各サブタスク200問によりシステムを評価した。
コレクション |
タスク |
文書データ |
タスク データ |
|||||||
ジャンル |
ファイル名 |
言語 |
年度 |
文書数 |
サイズ |
質 問 |
正解判定 |
|||
言語 |
# |
段 階 |
||||||||
NTCIR-5 CLQA |
J-E |
News articles |
Daily Yomiuri |
English |
2000-2001 |
17,741 |
22.9 MB |
Japanese |
200 |
Top 1 |
E-J |
News articles |
Yomiuri |
Japanese |
2000-2001 |
658,719 |
343.3 MB |
English |
200 |
Top 1 |
|
C-E |
News articles |
Daily Yomiuri |
English |
2000-2001 |
17,741 |
22.9 MB |
Chinese |
200 |
Top 1 |
|
E-C |
News articles |
CIRB040r |
Traditional |
2000-2001 |
901,446 |
581.7 MB |
English |
200 |
Top 1 |
|
C-C |
News articles |
CIRB040r |
Traditional |
2000-2001 |
901,446 |
581.7 MB |
Chinese |
200 |
Top 1 |
--- NIIからデータ提供 | |
--- NTCIRワークショップの当該タスク参加者にはNIIから提供 -- 参加者以外は他の機関から入手可能 |
(1) 文書データは,以下の三種類のものを用います。
a) 読売新聞記事データ2000、2001年版は、NTCIR-5 CLQAタスク参加者以外は、日本データベース開発株式会社から研究利用許諾を得ることができます。記事は、NTCIR標準フォーマットに変換されたものを標準とします。
b) The Daily Yomiuri記事データ2000、2001年版は、NTCIR-5 CLQAタスク参加者以外は、日本データベース開発株式会社から研究利用許諾を得ることができます。記事は、NTCIR標準フォーマットに変換されたものを標準とします。
c) CIRB040r は、国立情報学研究所より研究利用目的のための利用を前提として研究利用許諾を得ることができます。
(2) 文書レコード中で使用されているタグ
Mandatory tags |
||
<DOC> |
</DOC> |
The tag for each document |
<DOCNO> |
</DOCNO> |
Document identifier |
<LANG> |
</LANG> |
Language code: ZH, EN, JA, |
<HEADLINE> |
</HEADLINE> |
Title of this news article |
<DATE> |
</DATE> |
Issue date |
<TEXT> |
</TEXT> |
Text of news article |
Optional tags |
||
<P> |
</P> |
Paragraph marker |
<SECTION> |
</SECTION> |
Section identifier in original newspapers |
<AE> |
</AE> |
Contain figures or not |
<WORDS> |
</WORDS> |
Number of words in 2 bytes (for Mainichi Newspaper) |
質問セット:ファイル5つと回答データがあります。
Questions
For formal runs, there are 200 testing questions for each subtask. Answers of
these questions are restricted to the named entities. (Please refer to the
Section "Answer Types") The format of testing questions is:
[QID]: "[Question]"
[QID] is the form of [QuestionSetID]-[Lang]-[QuestionNo]-[SubQuestionNo], where [QuestionSetID] is "CLQA1". [Lang] is one of JA, ZH, and EN. (You will find the language code for Chinese here is “ZH” rather than “CH” used in document set. We would like to use ISO 639 from now on. However, due to the historical reason, the language code for documents is still “CH” this time. The “ZH” will be used for documents when we build new document set.) [QuestionNo] and [SubQuestionNo] consist of four numeric characters starting with "S" or "T" and two numeric characters, respectively. ("S" is for sample questions and "T" for test questions.) An example of questions is:
CLQA1-EN-S0001-00: "When Queen Victoria died?"
We release 5 question files for CLQA1 formal run. Chinese question are be in BIG5 encoding, Japanese question files are in EUC-JP encoding, English question files are in ASCII encoding. The names of question files and their associations with CLQA1 subtasks are shown as follows.
CLQA1-JA-T0200-EUC-JP.q is for J-E
subtask.
CLQA1-ZH-T0200-BIG5.q is for C-E subtask.
CLQA1-EN-T0200-ASCII.q is for E-J subtask.
CLQA1-EN-T1200-ASCII.q is for E-C subtask.
CLQA1-ZH-T1200-BIG5.q is for C-C subtask.
For the purpose of constructing QA
systems, sample questions were prepared. There are:
- 300 sample questions for J-E subtask, E-J subtask, and C-E subtask, and
- 200 sample questions for C-C subtask and E-C subtask.
Answer
Types
The types of answers to the testing questions in NTCIR-5 CLQA are restricted
to named entity types. They are:
IREX named entity types:
ORGANIZATION
PERSON
LOCATION
ARTIFACT (product name, book title, pact, law, ...)
DATE
TIME
MONEY
PERCENT
Other named entity type:
NUMEX (numerical expressions other than MONEY and PERCENT)
For the full definition of IREX
named entity types, please refer to its web pages:
http://nlp.cs.nyu.edu/irex/index-e.html
http://nlp.cs.nyu.edu/irex/NE/df990214.txt (definition, Japanese only)
Answer
Format
Different answers (system responses) in the same language to the same question are written together in the same line. The format is:
[QID], [Lang](, "[Answer]", [DOCNO], [Reserved], [Reserved])*
where [QID] is the same as in the
question file format above. It must be unique in the file, and ordered
identically with in the corresponding question file. It is, however, allowed
that some of [QID]s do not appear at the file. [Lang] is one of JA, ZH, and
EN.
[Answer] is the answer to the question. It is written in CSV format which
requires double quotes to express strings that can include comma (,) and new
line in it. If a double quote occurs in the answer string, use ""
(double quote twice) to denote its occurrence.
[DOCNO] is the identifier of the article or one of the articles used in
the process of deriving the answer. The value of the tag in documents is
used for the identifier. [Reserved] is a field for the future use. Examples
of answer output are:
CLQA1-EN-T0001-00, EN,
"1901", ENY-20001101CYM0398, ,
CLQA1-EN-T0001-00, JA, "1901年", JAY-20001101CYM0398, , , "一九〇一年",
JAY-20001101CYM0398, ,
If there is no answer response to a question, the line terminates after the [Lang] field, such as:
CLQA1-EN-T0001-00, EN
In order to make sure the correctness of answer format, we will release a program for our participants to check the answer format before submitting the results.
|
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
【タスクデータ】(文書データ不要の場合)
【文書データ】
- まず、「テストコレクション使用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
NIIで審査後、こちらからご連絡致します。
- 利用許可が出た場合は、下記の要領で「利用許諾に関する覚書」を2部作成し、下記の送付先までご郵送下さい。
利用許諾に関する「覚書」をメールで送付しますので、 2部、かならず両面印刷で出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。
NII側の押印後、データの使用許諾を示すものとして1部を使用申込み者にお送りし、1部をNIIで保管します。
必要書類 ---
参考書類 ---
- テストコレクション使用申込書
- 覚書 (文書データ用) (メールで送付します)
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 使用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただいきました。我々
研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してください。