[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-6 CLQAテストコレクションは、中国語(繁体字)日本語、英語(CJE)間の以下のような言語横断情報検索cross-lingual
information retrieval に関する以下のような実験に使用することができます。
・多言語横断質問応答(E-J/J-E/E-C/C-E サブタスク)*
・単言語質問応答(J-J, C-C, and E-E サブタスク)
*"X-Y サブタスク"とは、X言語の質問に対してY言語の文書データから回答を抽出することを指します。
文書データは1998-1999にアジア地域で発行された中国語・日本語・英語の新聞記事の全文です。当テストコレクションは200問の日本語質問(J-JおよびJ-Eサブタスク用)、150問の中国語質問(C-CおよびC-Eサブタスク用)、350問の英語質問(E-JおよびE-Eサブタスク用に200問、E-CおよびE-Eサブタスク用に150問)、質問に対する正解およびそれが解答であることを根拠づける記事のIDを含みます。
コレクション | タスク |
文書データ | タスクデータ | |||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 質問 |
正解判定 |
|||
言語 | # | |||||||||
NTCIR-6 CLQA |
QA |
News articles |
CIRB020 (A) |
Traditional Chinese |
1998-1999 | 249,203 | 320 MB | CJE | J-E/J-J/E-J: 200, C-E/C-C/E-C/E-E: 150 | 3段階* |
Mainichi (B) | Japanese | 220,078 | 282 MB | |||||||
EIRB010 (C) | English | 10,204 | 24.5 MB | |||||||
Mainichi Daily (A) | English | 12,723 | 33.3 MB | |||||||
Korea Times (A) | English | 19,599 | 55.8MB | |||||||
Hong Kong Standard (C) | English | 96,683 | 252MB |
*Right, Unsupported, Wrong
(A) | -- CIRB020, Mainichi Daily (English),Korea Times, Hong Kong StandardはNIIから研究利用目的でデータ提供 |
(B) | --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社より研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。 ・スクリプト mai2ntc-r.pl:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/mai2ntc-r.pl_txt ・README【mai2ntc-r.pl】:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/READMEforMainichiScript-r.txt |
(C) | EIRB010はワークショップ参加者のみ利用可能 Hong Kong Standardは現在配布中止しています |
NTCIR-6 CLQAテストコレクションで使用する文書データは以下の通りです。
A.1 中国語データセット(繁体字)
CIRB020: United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, Star News (Copyright: UDN.COM) 1998-1999
A.2 日本語データセット
Mainichi Newspaper Article Data (Copyright: Mainichi Newspaper) 1998 - 1999
A.3 英語データセット
EIRB010: Taiwan News (Copyright: Taiwan News); China Times English News (Copyright: China Times Inc.) 1998-1999
Mainichi Daily News (Copyright: Mainichi Newspaper) 1998-1999
Korea Times (Copyright: Hankooki.com Co., Distribution rights: Korean Institute of Science and Technology Information) 1998-1999
Hong Kong Standard (Copyright: the Sing Tao Group, Distribution rights: Wisers Information Ltd.) 1998-1999
使用されているタグ
Mandatory tags |
||
<DOC> |
</DOC> |
The tag for each document |
<DOCNO> |
</DOCNO> |
Document identifier |
<LANG> |
</LANG> |
Language code: ZH, EN, JA,KR |
<HEADLINE> |
</HEADLINE> |
Title of this news article |
<DATE> |
</DATE> |
Issue date |
<TEXT> |
</TEXT> |
Text of news article |
Optional tags |
||
<P> |
</P> |
Paragraph marker |
<SECTION> |
</SECTION> |
Section identifier in original newspapers |
<AE> |
</AE> |
Contain figures or not |
<WORDS> |
</WORDS> |
Number of words in 2 bytes |
質問フォーマットQuestions
質問ファイルは、以下の形式です。
[質問ID]: "[質問文]"
[質問ID]の形式は、[質問セットID]-[言語]-[質問番号]-[枝問番号]
[質問セットID] は "CLQA2"、[言語] はJA(日本語), ZH(中国語), EN(英語)のいずれか。
[質問番号]は冒頭に"S" または "T"がつく(Sはサンプル質問、Tは実験用質問)数字4文字、 [枝問番号]は数字2文字
質問文の例
CLQA2-EN-T3003-00: "Who was the UN secretary-general in 1999?"
CLQAフォーマルランでは8つの質問ファイルがあり、回答は固有表現に限定されます。中国語質問ファイルのエンコードはBIG5、日本語質問はEUC-JP、英語質問はASCIIです。
質問ファイルの名称とCLQAサブタスクとの関係
Subtasks |
Question Set |
言語 |
#Q | Remark |
E-J | CLQA2-EN-T1200-ASCII.q | English | 200 |
Same 200 English questions |
E-E | CLQA2-EN-T0200-ASCII.q | English | 200 | |
J-E | CLQA2-JA-T0200-EUC-JP.q | Japanese | 200 | Same 200 Japanese questions |
J-J | CLQA2-JA-T1200-EUC-JP.q | Japanese | 200 | |
E-C | CLQA2-EN-T3200-ASCII.q | English | 150 | Same 150 English questions |
E-E | CLQA2-EN-T2200-ASCII.q | English | 150 | |
C-E | CLQA2-ZH-T2200-BIG5.q | Chinese | 150 | Same 150 Chinese questions |
C-C |
CLQA2-ZH-T3200-BIG5.q |
Chinese | 150 |
Gold Standard
使用されているタグ
<QASET> | </QASET> | The tag for the whole QA set |
<VERSION> | </VERSION> | The version of this QA set |
<QA> | </QA> | The tag for a QA cluster: a QA cluster contains a set of question sentences which are the same question but written in different languages; moreover, all of the correct answers found in the test collections (in any language) are also collected in a QA cluster |
<QUESTION> | </QUESTION> | Question part in a QA cluster |
<Q> | </Q> | The tag for a question sentence in a QA cluster, which has the following attributes: the attribute LANG (with values EN, JA, and ZH) denotes the language in which the question is written, and the attribute QID gives the question ID referred in CLQA subtasks |
<Q_TYPE> | <Q_TYPE> | The question type of a question |
<ANSWER> | </ANSWER> | Answer part in a QA cluster |
<A> | </A> | The tag for a correct answer found in the test collections, which has the following attributes: the attribute LANG (with values EN, JA, and ZH) denotes the language in which the answer string is written, and the attribute DOCNO gives the document ID of a document where this answer appears. |
QA clusterの例
<QA>
<QUESTION>
<Q LANG="EN" QID="CLQA2-EN-T3003-00">Who was the UN secretary-general in 1999?</Q>
<Q LANG="ZH" QID="CLQA2-ZH-T3003-00">一九九九年時聯合國秘書長是誰?</Q>
<Q_TYPE>PERSON</Q_TYPE>
</QUESTION>
<ANSWER>
<A LANG="EN" DOCNO="HK-199908270280045">Kofi Annan</A>
<A LANG="ZH" DOCNO="udn_xxx_19991230_0727">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19990107_0191">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19990720_0238">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19991115_0168">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19991118_0056">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19990411_0202">安南</A>
<A LANG="ZH" DOCNO="udn_xxx_19990830_0190">安南</A>
</ANSWER>
</QA>
CLQAサブタスクのgold standardファイル
CLQA2-EJ-T0200-070131-UTF-8.xml for J-E/E-E subtasks CLQA2-EJ-T1200-070131-UTF-8.xml for E-J/J-J subtasks CLQA2-EN-T2200-v1.2-UTF-8.xml for E-E subtask CLQA2-EN-T3200-v1.2-UTF-8.xml for E-C subtask CLQA2-ZH-T3200-v1.2-UTF-8.xml for C-C subtask (C-E サブタスクにはgold standardファイルはありません).) |
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
【タスクデータ】(文書データ不要の場合)
- NTCIR-6 CLQAタスクデータは、NIIのIDRからオンライン申請によりダウンロード可能です:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
【文書データ】
- まず、「テストコレクション利用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
- その後、利用許諾に関する「覚書」をメールで送付しますので、2部、かならず両面印刷で出力し、必要事項を記入し、署名および押印を して、以下の送付先 に郵送してください。
NII側の押印後、データの利用許諾を示すものとして1部を利用申込者にお送り し、1部をNIIで保管します。
必要書類 ---
参考書類 ---
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。