NTCIR Project
NTCIR-6 CLIR(言語横断検索テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データHOME]


NTCIR-6 CLIR (IR Test Collection)


NTCIR-6 CLIRテストコレクションは中国語(C)・日本語(J)・韓国語(K)・英語(E)に関する言語横断検索(cross-lingual information retrieval:CLIR)についての以下のような実験に使用することができます。

検索対象となる文書は、中国語・日本語・韓国語で書かれた新聞記事の全文です(今回は文書のほうには英語はありません)。これらの新聞記事はアジア地域で2000年と2001年に発行されたものです。テストコレクションにはまた、これらの言語と英語での検索課題および適合判定情報が含まれています。なお、MLIRのための文書集合はCJKのみです。また、中国語は繁体字です。

また、NTCIR-6ワークショップのCLIRタスクは、ステージ1とステージ2とに分かれており、ステージ2では、過去のNTCIR3からNTCIR5までのテストコレクションをそのまま再利用しました。したがって、ここで述べる「NTCIR-6テストコレクション」は厳密には、「ステージ1」のほうで使用・作成されたテストコレクションを意味します。

コレクション タスク 文書データ タスク データ
ジャンル ファイル名 言語 年度 文書数 サイズ 検索課題 正解判定
言語 # 段階  
NTCIR-6 CLIR  IR  新聞記事 CIRB040r (A)  CH  2000-01 901,446   581.7 MB CJKE  50 4段階
Mainichi Newspaper(B)  JA  2000-01 199,681   118.8 MB CJKE  50 4段階
Yomiuri Newspaper (B)  JA  2000-01 658,719   343.3 MB CJKE  50 4段階
Hankookilbo (A)  KR  2000-01 85,250   52.1 MB CJKE  50 4段階
Chosunilbo(A)  KR  2000-01 135,124   88.7 MB CJKE  50 4段階

(A) CIRB040r、Hankookilbo、Chosunilboについては、国立情報学研究所から研究目的で提供可能
(B) Mainichi Newspaper、Yomiuri Newspaperは各機関から入手可能
・ワークショップ参加者以外の新規申込の方は研究目的用CD-読売新聞記事データを日本データベース開発(株)より購入できます。購入した記事データを、NTCIRテストコレクション用文書データとして使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。            

・ワークショップ参加者以外の新規申込の方は研究目的用CD-毎日新聞記事データを日外アソシエーツ(株)および毎日新聞社より購入できます。海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。         

文書データ, 検索課題および適合判定

 文書データ 

(1) 文書セットのリスト

Doc language files No. of docs
2000 2001 Total
Chinese CIRB040r (revised)
(581.7 MB)
United Daily News (udn) 244,038 222,526 466,564
United Express (ude) 40,445 51,851 92,296
Ming Hseng News (mhn) 84,437 85,302 169,739
Economic Daily News (edn) 79,380 93,467 172,847
Total 448,300 453,146 901,446
Japanese Mainichi Newspaper 2000-2001 (118.8 MB) 99,207 100,474 199,681
Yomiuri Newspaper 2000-2001 (343.3 MB) 306,709 352,010 658,719
Total 405,916 452,484 858,400
Korean Hankookilbo 2000-2001 (52.1 MB) 40,306 44,944 85,250
Chosunilbo 2000-2001 (88.7 MB) 67,711 67,413 135,124
Total 108,017 112,357 220,374

(2) 文書レコード中で使用されているタグ

Mandatory tags
<DOC> </DOC> The tag for each document
<DOCNO> </DOCNO> Document identifier
<LANG> </LANG> Language code: CH, JA, KR
<HEADLINE> </HEADLINE> Title of this news article
<DATE> </DATE> Issue date
<TEXT> </TEXT> Text of news article
Optional tags
<P> </P> Paragraph marker
<SECTION> </SECTION> Section identifier in original newspapers
<AE> </AE> Contain figures or not
<WORDS> </WORDS> Number of words in 2 bytes (for Mainichi Newspaper)

  

検索課題

(1)検索課題ファイルのリスト(課題数は50)

言語 ファイル名
(1)中国語 NTCIR6CLIRTopicCH.txt
(2)日本語 NTCIR6CLIRTopicJA.txt
(3)韓国語 NTCIR6CLIRTopicKR.txt
(4)英語 NTCIR6CLIRTopicEN.txt

(2)検索課題の例

<TOPIC>
<NUM>013</NUM>
<SLANG>CH</SLANG>
<TLANG>EN</TLANG>
<TITLE>NBA labor dispute</TITLE>
<DESC>To retrieve the labor dispute between the two parties of the US National Basketball Association at the end of 1998 and the agreement that they reached. </DESC>
<NARR>
<REL>The content of the related documents should include the causes of NBA labor dispute, the relations between the players and the management, main controversial issues of both sides, compromises after negotiation and content of the new agreement, etc. The document will be regarded as irrelevant if it only touched upon the influences of closing the court on each game of the season.</REL>
</NARR>
<CONC>NBA (National Basketball Association), union, team, league, labor dispute, league and union, negotiation, to sign an agreement, salary, lockout, Stern, Bird Regulation.</CONC>
</TOPIC>

(3)検索課題に使用されているタグ

<TOPIC> </TOPIC> The tag for each topic
<NUM> </NUM> Topic identifier
<ONUM> </ONUM> Original topic ID (in NTCIR-6 STAGE1, a part of old topics for NTCIR-3 to -5 was re-used.)
<TLANG> </TLANG> Target language code: CH, EN, JA, KR
<SLANG> </SLANG> Source language code: CH, EN, JA, KR
<TITLE> </TITLE> The concise representation of information request, which is composed of noun or noun phrase.
<DESC> </DESC> A short description of the topic. The brief description of information need, which is composed of one or two sentences.
<NARR> </NARR> A much longer description of topic. The <NARR> may has three parts;
(1)<BACK>...</BACK>: background information about the topic is described.
(2)<REL>...</REL>: further interpretation of the request and proper nouns, the list of relevant or irrelevant items, the specific requirements or limitations of relevant documents, and so on are given.
(3)<TERM>...</TERM>: definition or explanation of proper nouns, scientific terms and so on.
<CONC> </CONC> The keywords relevant to whole topic.
*<BACK>、<REL>、<TERM>を持たない検索課題も含まれています。
適合判定

(1)適合判定ファイルのリスト

検索の種類 検索課題 文書 使用する適合判定ファイル
単言語検索 (SLIR) 中国語(C) 中国語(C) CLIR6FormalRunRJ-C-Rigid.txt
CLIR6FormalRunRJ-C-Relax.txt
日本語(J) 日本語(J) CLIR6FormalRunRJ-J-Rigid.txt
CLIR6FormalRunRJ-J-Relax.txt
韓国語(K) 韓国語(K) CLIR6FormalRunRJ-K-Rigid.txt
CLIR6FormalRunRJ-K-Relax.txt
2言語横断検索 (BLIR) C or K J CLIR6FormalRunRJ-J-Rigid.txt
CLIR6FormalRunRJ-J-Relax.txt
K or J C CLIR6FormalRunRJ-C-Rigid.txt
CLIR6FormalRunRJ-C-Relax.txt
C or J K CLIR6FormalRunRJ-K-Rigid.txt
CLIR6FormalRunRJ-K-Relax.txt
多言語横断検索 (MLIR) C or J or K or E C and J and K CLIR6FormalRunRJ-CJK-Rigid.txt
CLIR6FormalRunRJ-CJK-Relax.txt

(2) 2種類の適合判定ファイル

このテストコレクションでは、「Highly Relevant(高適合)」「Relevant(適合)」「Partially Relevant(部分適合)」「Irrelevant(不適合)」の4段階の適合度によって文書の評価が実施されています。しかし、評価指標を算出するためのtrec_evalソフトウェアでは2値の判定が採用されているため、閾値を決めて、上記の4段階の適合度を2値へと変換しています。そのため、適合判定ファイルは次の2種類のものが用意されることになります。
(a)「Rigid」適合:「高適合」と「適合」を適合として扱う。
(b)「Relaxed」適合:「高適合」と「適合」、「部分適合」を適合として扱う。

(3) 適合判定ファイルの書式

適合判定ファイルの書式は以下のとおりです。

(検索課題ID) (ダミー) (文書ID) (適合判定 "0"または "1") (コメント)

入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

【タスクデータ】(文書データ不要の場合)

【文書データ】

必要提出書類 

テストコレクション利用申込書 [txt]
テストコレクション利用許諾に関する覚書 (メールで送付します)


Reference

利用規程
Task Overview of NTCIR 6 CLIR
An Overview of NTCIR-6 CLIR

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所  
NTCIR事務局  (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項 ---テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。


[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データHOME]

Updated on : 2016-11-07
ntc-admin