NTCIR Project
NTCIR-4 CLIR(言語横断検索テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム][NTCIR データ home]

NTCIR-4 CLIR(IR Test Collection)

NTCIR-4 CLIRテストコレクションは中国語(C)・日本語(J)・韓国語(K)・英語(E)に対する言語横断検索(cross-lingual information retrieval:CLIR)に関する、以下のような実験に使用することができます。



文書データ, 検索課題および適合判定


(1) 文書セットのリスト

Language Collection No. of Docs Note
Chinese 1998-99 CIRB020 (United Daily News) 249,508 Used in NTCIR-3
CIRB011 (China Times, China Times Express, Commercial Times, China Daily News, Central and Daily News ) 132,173 Used in NTCIR-3
total 381,681
Japanese 1998-99 Yomiuri 375,980 New
Mainichi 220,078 Used in NTCIR-3
Total 596,058
Korean 1998-99 Hankookilbo 149,921 New
Chosunilbo 104,517 New
total 254,438
English 1998-99 EIRB010 Taiwan News 7,489 Used in NTCIR-3
China Times English News (Taiwan) 2,715 Used in NTCIR-3
Mainichi Daily News (Japan) 12,723 Used in NTCIR-3
Korea Times 19,599 New
Xinhua (AQUAINT) 208,168 New
Hong Kong Standard 96,856 New
total 347,550

-- NIIからデータ提供
-- ・NTCIRワークショップの当該タスク参加者にはNIIから提供
-- 参加者のみデータ利用可能

(2) 文書レコード中で使用されているタグ

Mandatory tags
<DOC> </DOC> The tag for each document
<DOCNO> </DOCNO> Document identifier
<LANG> </LANG> Language code: CH, EN, JA, KR
<HEADLINE> </HEADLINE> Title of this news article
<DATE> </DATE> Issue date
<TEXT> </TEXT> Text of news article
Optional tags
<P> </P> Paragraph marker
<SECTION> </SECTION> Section identifier in original newspapers
<AE> </AE> Contain figures or not
<WORDS> </WORDS> Number of words in 2 bytes (for Mainichi Newspaper)




言語 ファイル名
(1)中国語 NTCIR4CLIRFormalRunTopic-CH.txt
(2)日本語 NTCIR4CLIRFormalRunTopic-JA_mod20031203.txt
(3)韓国語 NTCIR4CLIRFormalRunTopic-KR.txt
(4)英語 NTCIR4CLIRFormalRunTopic-RN.txt


<TITLE>NBA labor dispute</TITLE>
<DESC>To retrieve the labor dispute between the two parties of the US National Basketball Association at the end of 1998 and the agreement that they reached. </DESC>
<REL>The content of the related documents should include the causes of NBA labor dispute, the relations between the players and the management, main controversial issues of both sides, compromises after negotiation and content of the new agreement, etc. The document will be regarded as irrelevant if it only touched upon the influences of closing the court on each game of the season.</REL>
<CONC>NBA (National Basketball Association), union, team, league, labor dispute, league and union, negotiation, to sign an agreement, salary, lockout, Stern, Bird Regulation.</CONC>


<TOPIC> </TOPIC> The tag for each topic
<NUM> </NUM> Topic identifier
<SLANG> </SLANG> Source language code: CH, EN, JA, KR
<TLANG> </TLANG> Target language code: CH, EN, JA, KR
<TITLE> </TITLE> The concise representation of information request, which is composed of noun or noun phrase.
<DESC> </DESC> A short description of the topic. The brief description of information need, which is composed of one or two sentences.
<NARR> </NARR> A much longer description of topic. The <NARR> may has three parts;
(1)<BACK>...</BACK>: background information about the topic is described.
(2)<REL>...</REL>: further interpretation of the request and proper nouns, the list of relevant or irrelevant items, the specific requirements or limitations of relevant documents, and so on are given.
(3)<TERM>...</TERM>: definition or explanation of proper nouns, scientific terms and so on.
<CONC> </CONC> The keywords relevant to whole topic.


検索の種類 検索課題 文書 使用する適合判定ファイル
単言語検索 (SLIR) 中国語(C) 中国語(C) CLIR4FormalRunRJ-C-Rigid.txt
日本語(J) 日本語(J) CLIR4FormalRunRJ-J-Rigid.txt
韓国語(K) 韓国語(K) CLIR4FormalRunRJ-K-Rigid.txt
英語(E) 英語(E) CLIR4FormalRunRJ-E-Rigid.txt
2言語横断検索 (BLIR) C or J or K E CLIR4FormalRunRJ-E-Rigid.txt
C or K J CLIR4FormalRunRJ-J-Rigid.txt
K or J C CLIR4FormalRunRJ-C-Rigid.txt
C or J K CLIR4FormalRunRJ-K-Rigid.txt
多言語横断検索 (MLIR) C or J or K or E C and J and K and E CLIR4FormalRunRJ-CJKE-Rigid.txt
C or J or K or E C and J and E CLIR4FormalRunRJ-CJE-Rigid.txt

(2) 2種類の適合判定ファイル

このテストコレクションでは、「Highly Relevant(高適合)」「Relevant(適合)」「Partially Relevant(部分適合)」「Irrelevant(不適合)」の4段階の適合度によって文書の評価が実施されています。しかし、評価指標を算出するためのtrec_evalソフトウェアでは2値の判定が採用されているため、閾値を決めて、上記の4段階の適合度を2値へと変換しています。そのため、適合判定ファイルは次の2種類のものが用意されることになります。

(3) 適合判定ファイルの書式


(検索課題ID) (ダミー) (文書ID) (適合判定 "0"または "1") (コメント)

適合文書数が1000を超えた場合、trec_evalによって計算される平均精度の値の上限は1.0未満になるようです。例えば、適合文書数が1072件の場合、上限は、1000/1072 (= 0.9328)となるようです。




お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。



必要書類 ---   

「覚書」送付先 ---

NTCIR事務局 (1309号室)

Phone: 03-4212-2750
FAX: 03-4212-2751