[ENGLISH] [NTCIR ホーム][NTCIR データ home]
NTCIR-5 CLIRテストコレクションは中国語(C)・日本語(J)・韓国語(K)・英語(E)に対する言語横断検索(cross-lingual information retrieval:CLIR)に関する、以下のような実験に使用することができます。
*なお、MLIRのための文書集合はCJKEのみです。また、中国語は繁体字です。
検索対象となる文書は、中国語・日本語・英語・英語で書かれた新聞記事の全文です。これらの新聞記事はアジア地域で2000年と2001年に発行されたものです。テストコレクションにはまた、これらの言語での検索課題および適合判定情報が含まれています。
(1) 文書セットのリスト
Doc language | files | No. of docs | |||
2000 | 2001 | Total | |||
Chinese | CIRB040r (revised) (581.7 MB) 2000-2001 (A) |
---United Daily News (udn) | 244,038 | 222,526 | 466,564 |
---United Express (ude) | 40,445 | 51,851 | 92,296 | ||
---Ming Hseng News (mhn) | 84,437 | 85,302 | 169,739 | ||
---Economic Daily News (edn) | 79,380 | 93,467 | 172,847 | ||
Total | 448,300 | 453,146 | 901,446 | ||
Japanese | ---Mainichi Newspaper 2000-2001 (118.8 MB) (B) |
99,207 | 100,474 | 199,681 | |
---Yomiuri Newspaper 2000-2001 (343.3 MB) (B) |
306,709 | 352,010 | 658,719 | ||
Total | 405,916 | 452,484 | 858,400 | ||
Korean | ---Hankookilbo 2000-2001 (52.1 MB) (A) |
40,306 | 44,944 | 85,250 | |
---Chosunilbo 2000-2001 (88.7 MB) (A) |
67,711 | 67,413 | 135,124 | ||
Total | 108,017 | 112,357 | 220,374 | ||
English | ---Mainichi Daily News 2000-2001 (9.9 MB))(A) | 6,608 | 5,547 | 12,155 | |
---Korea Times 2000-2001(25.3 MB)(A) | 16,461 | 14,069 | 30,530 | ||
---Daily Yomiuri 2000-2001(22.9 MB)(B) | 9,081 | 8,660 | 17,741 | ||
---Xinhua 2000-2001(from LDC)(B) | 107,956 | 90,668 | 198,624 | ||
Total | 140,106 | 118,944 | 259,050 |
--- NIIからデータ提供 | |
--- NTCIRワークショップの当該タスク参加者にはNIIから提供 -- 参加者以外は他の機関から入手可能 ・ワークショップ参加者以外の新規申込の方は研究目的用CD-読売新聞記事データを日本データベース開発(株)より購入できます。購入した記事データを、NTCIRテストコレクション用文書データとして使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
・ワークショップ参加者以外の新規申込の方は研究目的用CD-毎日新聞記事データを日外アソシエーツ(株)および毎日新聞社より購入できます。海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
|
(2) 文書レコード中で使用されているタグ
Mandatory tags | ||
<DOC> | </DOC> | The tag for each document |
<DOCNO> | </DOCNO> | Document identifier |
<LANG> | </LANG> | Language code: CH, EN, JA, KR |
<HEADLINE> | </HEADLINE> | Title of this news article |
<DATE> | </DATE> | Issue date |
<TEXT> | </TEXT> | Text of news article |
Optional tags | ||
<P> | </P> | Paragraph marker |
<SECTION> | </SECTION> | Section identifier in original newspapers |
<AE> | </AE> | Contain figures or not |
<WORDS> | </WORDS> | Number of words in 2 bytes (for Mainichi Newspaper) |
(1)検索課題ファイルのリスト
言語 | ファイル名 |
(1)中国語 | NTCIR5CLIRTopicCH.txt |
(2)日本語 | NTCIR5CLIRTopicJA.txt |
(3)韓国語 | NTCIR5CLIRTopicKR.txt |
(4)英語 | NTCIR5CLIRTopicEN.txt |
(2)検索課題の例
<TOPIC> <NUM>013</NUM> <SLANG>CH</SLANG> <TLANG>EN</TLANG> <TITLE>NBA labor dispute</TITLE> <DESC>To retrieve the labor dispute between the two parties of the US National Basketball Association at the end of 1998 and the agreement that they reached. </DESC> <NARR> <REL>The content of the related documents should include the causes of NBA labor dispute, the relations between the players and the management, main controversial issues of both sides, compromises after negotiation and content of the new agreement, etc. The document will be regarded as irrelevant if it only touched upon the influences of closing the court on each game of the season.</REL> </NARR> <CONC>NBA (National Basketball Association), union, team, league, labor dispute, league and union, negotiation, to sign an agreement, salary, lockout, Stern, Bird Regulation.</CONC> </TOPIC> |
(3)検索課題に使用されているタグ
<TOPIC> | </TOPIC> | The tag for each topic |
<NUM> | </NUM> | Topic identifier |
<SLANG> | </SLANG> | Source language code: CH, EN, JA, KR |
<TLANG> | </TLANG> | Target language code: CH, EN, JA, KR |
<TITLE> | </TITLE> | The concise representation of information request, which is composed of noun or noun phrase. |
<DESC> | </DESC> | A short description of the topic. The brief description of information need, which is composed of one or two sentences. |
<NARR> | </NARR> | A much longer description of topic. The <NARR> may has three
parts; (1)<BACK>...</BACK>: background information about the topic is described. (2)<REL>...</REL>: further interpretation of the request and proper nouns, the list of relevant or irrelevant items, the specific requirements or limitations of relevant documents, and so on are given. (3)<TERM>...</TERM>: definition or explanation of proper nouns, scientific terms and so on. |
<CONC> | </CONC> | The keywords relevant to whole topic. |
(1)適合判定ファイルのリスト
検索の種類 | 検索課題 | 文書 | 使用する適合判定ファイル |
単言語検索 (SLIR) | 中国語(C) | 中国語(C) | CLIR5FormalRunRJ-C-Rigid.txt CLIR5FormalRunRJ-C-Relax.txt |
日本語(J) | 日本語(J) | CLIR5FormalRunRJ-J-Rigid.txt CLIR5FormalRunRJ-J-Relax.txt |
|
韓国語(K) | 韓国語(K) | CLIR5FormalRunRJ-K-Rigid.txt CLIR5FormalRunRJ-K-Relax.txt |
|
英語(E) | 英語(E) | CLIR5FormalRunRJ-E-Rigid.txt CLIR5FormalRunRJ-E-Relax.txt |
|
2言語横断検索 (BLIR) | C or J or K | E | CLIR5FormalRunRJ-E-Rigid.txt CLIR5FormalRunRJ-E-Relax.txt |
C or K | J | CLIR5FormalRunRJ-J-Rigid.txt CLIR5FormalRunRJ-J-Relax.txt |
|
K or J | C | CLIR5FormalRunRJ-C-Rigid.txt CLIR5FormalRunRJ-C-Relax.txt |
|
C or J | K | CLIR5FormalRunRJ-K-Rigid.txt CLIR5FormalRunRJ-K-Relax.txt |
|
多言語横断検索 (MLIR) | C or J or K or E | C and J and K and E | CLIR5FormalRunRJ-CJKE-Rigid.txt CLIR5FormalRunRJ-CJKE-Relax.txt |
(2) 2種類の適合判定ファイル
こ
のテストコレクションでは、「Highly Relevant(高適合)」「Relevant(適合)」「Partially
Relevant(部分適合)」「Irrelevant(不適合)」の4段階の適合度によって文書の評価が実施されています。しかし、評価指標を算出する
ためのtrec_evalソフトウェアでは2値の判定が採用されているため、閾値を決めて、上記の4段階の適合度を2値へと変換しています。そのため、適
合判定ファイルは次の2種類のものが用意されることになります。
(a)「Rigid」適合:「高適合」と「適合」を適合として扱う。
(b)「Relaxed」適合:「高適合」と「適合」、「部分適合」を適合として扱う。
(3) 適合判定ファイルの書式
適合判定ファイルの書式は以下のとおりです。
(検索課題ID) (ダミー) (文書ID) (適合判定 "0"または "1") (コメント) |
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
【タスクデータ】(文書データなし)
【文書データ】
- まず、「テストコレクション使用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
- NIIで審査後、こちらからご連絡致します。
利用許可が出た場合は、下記の要領で「利用許諾に関する覚書」を各テストコレクションにつき2部作成し、下記の送付先までご郵送下さい。
・利用許諾に関する「覚書」をメールで送付しますので、
2部、かならず両面印刷で出力し、必要事項を記入し、署名および押印を して、以下の送付先に郵送してください。
NII側の押印後、テストコレクションの使用許諾を示すものとして1部を使用申込み者にお送りし、1部をNIIで保管します。
必要書類 ---
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項---