NTCIR Project
NTCIR-6 CLQA(多言語質問応答テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-6 CLQA (多言語質問応答テストコレクション)



NTCIR-6 CLQAテストコレクションは、中国語(繁体字)日本語、英語(CJE)間の以下のような言語横断情報検索cross-lingual information retrieval に関する以下のような実験に使用することができます。
    ・多言語横断質問応答(E-J/J-E/E-C/C-E サブタスク)*
    ・単言語質問応答(J-J, C-C, and E-E サブタスク)
   *"X-Y サブタスク"とは、X言語の質問に対してY言語の文書データから回答を抽出することを指します。
文書データは1998-1999にアジア地域で発行された中国語・日本語・英語の新聞記事の全文です。当テストコレクションは200問の日本語質問(J-JおよびJ-Eサブタスク用)、150問の中国語質問(C-CおよびC-Eサブタスク用)、350問の英語質問(E-JおよびE-Eサブタスク用に200問、E-CおよびE-Eサブタスク用に150問)、質問に対する正解およびそれが解答であることを根拠づける記事のIDを含みます。

コレクション タスク
文書データ タスクデータ
ジャンル ファイル名 言語 年度 文書数 サイズ 質問

正解判定

言語
NTCIR-6
CLQA

QA

News articles

CIRB020 (A)

Traditional Chinese

1998-1999 249,203 320 MB CJE J-E/J-J/E-J: 200,  C-E/C-C/E-C/E-E: 150 3段階*
Mainichi (B) Japanese 220,078 282 MB
EIRB010 (C)  English 10,204 24.5 MB
Mainichi Daily (A)  English 12,723 33.3 MB
Korea Times (A)  English 19,599 55.8MB
Hong Kong Standard (C)  English 96,683 252MB

*Right, Unsupported, Wrong

(A) -- CIRB020, Mainichi Daily (English),Korea Times, Hong Kong StandardはNIIから研究利用目的でデータ提供
(B) --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社より研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。 
・スクリプト mai2ntc-r.pl:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/mai2ntc-r.pl_txt
・README【mai2ntc-r.pl】:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/READMEforMainichiScript-r.txt
(C) EIRB010はワークショップ参加者のみ利用可能
Hong Kong Standardは現在配布中止しています


文書データ, 検索課題および適合判定

文書データ

NTCIR-6 CLQAテストコレクションで使用する文書データは以下の通りです。

A.1 中国語データセット(繁体字)

CIRB020: United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, Star News (Copyright: UDN.COM) 1998-1999 

A.2 日本語データセット

Mainichi Newspaper Article Data (Copyright: Mainichi Newspaper) 1998 - 1999 

A.3 英語データセット

EIRB010: Taiwan News (Copyright: Taiwan News); China Times English News (Copyright: China Times Inc.) 1998-1999

Mainichi Daily News (Copyright: Mainichi Newspaper) 1998-1999

Korea Times (Copyright: Hankooki.com Co., Distribution rights: Korean Institute of Science and Technology Information) 1998-1999

Hong Kong Standard (Copyright: the Sing Tao Group, Distribution rights: Wisers Information Ltd.) 1998-1999

 

使用されているタグ

Mandatory tags

<DOC>

</DOC>

The tag for each document

<DOCNO>

</DOCNO>

Document identifier

<LANG>

</LANG>

Language code: ZH, EN, JA,KR

<HEADLINE>

</HEADLINE>

Title of this news article

<DATE>

</DATE>

Issue date

<TEXT>

</TEXT>

Text of news article

Optional tags

<P>

</P>

Paragraph marker

<SECTION>

</SECTION>

Section identifier in original newspapers

<AE>

</AE>

Contain figures or not

<WORDS>

</WORDS>

Number of words in 2 bytes


質問フォーマットQuestions

質問ファイルは、以下の形式です。

[質問ID]: "[質問文]"

[質問ID]の形式は、[質問セットID]-[言語]-[質問番号]-[枝問番号]
[質問セットID] は "CLQA2"、[言語] はJA(日本語), ZH(中国語), EN(英語)のいずれか。
[質問番号]は冒頭に"S" または "T"がつく(Sはサンプル質問、Tは実験用質問)数字4文字、 [枝問番号]は数字2文字

質問文の例
CLQA2-EN-T3003-00: "Who was the UN secretary-general in 1999?" 

CLQAフォーマルランでは8つの質問ファイルがあり、回答は固有表現に限定されます。中国語質問ファイルのエンコードはBIG5、日本語質問はEUC-JP、英語質問はASCIIです。

質問ファイルの名称とCLQAサブタスクとの関係

Subtasks

Question Set

言語

#Q Remark
E-J CLQA2-EN-T1200-ASCII.q English 200

Same 200 English questions

E-E CLQA2-EN-T0200-ASCII.q English 200
J-E CLQA2-JA-T0200-EUC-JP.q Japanese 200 Same 200 Japanese questions
J-J CLQA2-JA-T1200-EUC-JP.q Japanese 200
E-C CLQA2-EN-T3200-ASCII.q English 150 Same 150 English questions
E-E CLQA2-EN-T2200-ASCII.q English 150
C-E CLQA2-ZH-T2200-BIG5.q Chinese 150 Same 150 Chinese questions
C-C

CLQA2-ZH-T3200-BIG5.q

Chinese 150

Gold Standard

使用されているタグ

<QASET> </QASET> The tag for the whole QA set
<VERSION> </VERSION> The version of this QA set
<QA> </QA> The tag for a QA cluster: a QA cluster contains a set of question sentences which are the same question but written in different languages; moreover, all of the correct answers found in the test collections (in any language) are also collected in a QA cluster
<QUESTION> </QUESTION> Question part in a QA cluster
<Q> </Q> The tag for a question sentence in a QA cluster, which has the following attributes: the attribute LANG (with values EN, JA, and ZH) denotes the language in which the question is written, and the attribute QID gives the question ID referred in CLQA subtasks
<Q_TYPE> <Q_TYPE> The question type of a question
<ANSWER> </ANSWER> Answer part in a QA cluster
<A> </A> The tag for a correct answer found in the test collections, which has the following attributes: the attribute LANG (with values EN, JA, and ZH) denotes the language in which the answer string is written, and the attribute DOCNO gives the document ID of a document where this answer appears.

QA clusterの例

<QA>

<QUESTION>

<Q LANG="EN" QID="CLQA2-EN-T3003-00">Who was the UN secretary-general in 1999?</Q>

<Q LANG="ZH" QID="CLQA2-ZH-T3003-00">一九九九年時聯合國秘書長是誰?</Q>

<Q_TYPE>PERSON</Q_TYPE>

</QUESTION>

<ANSWER>

<A LANG="EN" DOCNO="HK-199908270280045">Kofi Annan</A>

<A LANG="ZH" DOCNO="udn_xxx_19991230_0727">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19990107_0191">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19990720_0238">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19991115_0168">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19991118_0056">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19990411_0202">安南</A>

<A LANG="ZH" DOCNO="udn_xxx_19990830_0190">安南</A>

</ANSWER>

</QA>

CLQAサブタスクのgold standardファイル 

CLQA2-EJ-T0200-070131-UTF-8.xml for J-E/E-E subtasks

CLQA2-EJ-T1200-070131-UTF-8.xml for E-J/J-J subtasks

CLQA2-EN-T2200-v1.2-UTF-8.xml for E-E subtask

CLQA2-EN-T3200-v1.2-UTF-8.xml for E-C subtask

CLQA2-ZH-T3200-v1.2-UTF-8.xml for C-C subtask 

(C-E サブタスクにはgold standardファイルはありません).)

 入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

タスクデータ文書データ不要の場合

文書データ


必要書類 ---   


参考書類 ---   


「覚書」送付先 ---

101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。