[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-7 ACLIAテストコレクションは、中国語(簡体字(CS)、繁体字(CT))、日本語(JA)、英語(EN)間の以下のような言語横断情報アクセスcross-lingual
information access に関する以下のような実験に使用することができます。
コレクション | タスク |
文書データ | タスクデータ | |||||||
ジャンル | 名称 | 言語 | 年度 | 文書数 | サイズ | 質問 |
正解判定 |
|||
言語 | # | |||||||||
NTCIR-7 ACLIA |
QA |
News articles |
Xinhua (A) |
Simplified |
1998- |
295,875 | 511 MB | CJE | EN-JA: 100 JA-JA: 100 EN-CS: 100 CS-CS: 100 EN-CT: 100 CT-CT: 100 |
2段階(ナゲットの含有) |
Lianhe Zaobao (B) | Simplified |
1998- |
249,287 | 411 MB | ||||||
CIRB20 (B) | Traditional |
1998- |
249,508 | 320 MB | ||||||
CIRB40 (B) | Traditional Chinese |
2000- 2001 |
901,446 | 582 MB | ||||||
Mainichi (C) | Japanese | 1998- 2001 |
419,759 | 544 MB | ||||||
IR |
News articles |
Xinhua (A) | Simplified |
1998- |
295,875 | 511 MB | CJE | EN-JA: 98* JA-JA: 98* EN-CS: 97* CS-CS: 97* EN-CT: 95* CT-CT: 95* |
3段階 | |
Lianhe Zaobao (B) | Simplified |
1998- |
249,287 | 411 MB | ||||||
CIRB20 (B) | Traditional |
1998- |
249,508 | 320 MB | ||||||
CIRB40 (B) | Traditional Chinese |
2000- 2001 |
901,446 | 582 MB | ||||||
Mainichi (C) | Japanese | 1998- 2001 |
419,759 | 544 MB |
*該当する関連文書が存在しないため、いくつかのトピックを除きました。
(A) | --ワークショップ参加者以外の新規申し込みの方はLinguistic Data Consortium (LDC) 社よりXinhua新聞記事データを含むChinese Gigawordが購入できます。記事データ入手後、こちらの Perl スクリプトにてフォーマットを変換してください。 |
(B) | NIIから研究利用目的でデータ提供 |
(C) | --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社よ
り研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から
購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、下記のURLよりスクリプトをダウンロード
し、フォーマットをNTCIR用に変換してください。 ・スクリプト mai2ntc-r.pl:https://research.nii.ac.jp/ntcir/permission/ntcir-4/script/mai2ntc-r.pl_txt ・README【mai2ntc-r.pl】:https://research.nii.ac.jp/ntcir/permission/ntcir-4/script/READMEforMainichiScript-r.txt |
NTCIR-7 ACLIAテストコレクションで使用する文書データは以下の通りです。
A.1 中国語データセット(簡体字)
Xinhua (Copyright: Xinhua News Agency) 1998-2001
Lianhe Zaobao (Copyright: Singapore Press Holdings Limited) 1998-2001
A.2 中国語データセット(繁体字)
CIRB020: United Daily News, Economic Daily News, Min Sheng Daily, United
Evening News, Star News (Copyright: UDN.COM) 1998-1999
CIRB40: United Daily News, United Express, Ming Hseng News, Economic Daily
News (Copyright: UDN.COM news agency) 2000-2001
A.3 日本語データセット
毎日新聞 (Copyright: 毎日新聞社) 1998-2001
使用されているタグ
TREC format に準拠しています。
Mandatory tags |
||
<DOC> |
</DOC> |
The tag for each document |
<DOCNO> |
</DOCNO> |
Document identifier |
<LANG> |
</LANG> |
Language code: ZH, EN, JA,KR |
<HEADLINE> |
</HEADLINE> |
Title of this news article |
<DATE> |
</DATE> |
Issue date |
<TEXT> |
</TEXT> |
Text of news article |
Optional tags |
||
<P> |
</P> |
Paragraph marker |
<SECTION> |
</SECTION> |
Section identifier in original newspapers |
<AE> |
</AE> |
Contain figures or not |
<WORDS> |
</WORDS> |
Number of words in 2 bytes |
質問フォーマットQuestions
質問文の例
<TOPIC_SET> <METADATA> <DESCRIPTION>NTCIR-7 ACLIA Training questions</DESCRIPTION> <VERSION>v20071116</VERSION> <LANGUAGE TARGET="JA" /> <CORPUS>Mainichi Newspaper (1998-2001)</CORPUS> </METADATA> <TOPIC ID="ACLIA1-JA-T1"> <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION> <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION> <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE> <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE> </TOPIC> </TOPIC_SET>
Gold Standard
正解ファイルの例
<TOPIC_SET> <METADATA> <DESCRIPTION>NTCIR-7 ACLIA Training questions and answers</DESCRIPTION> <VERSION>v20071116</VERSION> <LANGUAGE TARGET="JA" /> <CORPUS>Mainichi Newspaper (1998-2001)</CORPUS> </METADATA> <TOPIC ID="ACLIA1-JA-T1" TITLE="ファタハ"> <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION> <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION> <ANSWERTYPE>DEFINITION</ANSWERTYPE> <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE> <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE> <ANSWER> <TEXT ID="1" DOCNO="JA-010101032"><![CDATA[パレスチナ解放機構(PLO)の主流派ファタハ]]></TEXT> <TEXT ID="2" DOCNO="JA-011218020"><![CDATA[ファタハが反イスラエル抵抗闘争の主体となっている]]></TEXT> <TEXT ID="3" DOCNO="JA-211221040"><![CDATA[アラファト議長の最大支持基盤であるファタハは13日、]]></TEXT> <NUGGET ID="1" VITAL="10" NONVITAL="0" SCORE="1.0"><![CDATA[パレスチナ解放機構(PLO)主流派]]></NUGGET> <NUGGET ID="2" VITAL="3" NONVITAL="7" SCORE="0.3"><![CDATA[反イスラエル抵抗闘争の主体となっている]]></NUGGET> <NUGGET ID="3" VITAL="9" NONVITAL="1" SCORE="0.9"><![CDATA[アラファト議長の最大支持基盤]]></NUGGET> </ANSWER> </TOPIC> </TOPIC_SET>
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
【タスクデータ】(文書データ不要の場合)
- NTCIR-7 ACLIAタスクデータは、NIIのIDRからダウンロードできます:
https://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
【文書データ】
「利用規定」をよくお読み頂き、内容を十分にご確認の上、お申込み下さい。
- 1) まず、「テストコレクション利用申込書」を、E-mailで、 idr-ntcir宛 に送付して下さい。
※利用申込書の1.テストコレクション名には、「NTCIR-7 ACLIA 文書データ」とご記入下さい。- 2) NIIで審査後、こちらからご連絡致します。
利用許可が出た場合は、下記の要領で「利用許諾に関する覚書」を2部作成し、下記の送付先までご郵送下さい。
- 利用許諾に関する「覚書」をメールで送付しますので、かならず両面印刷で2部、出力してください。
- 必要事項を記入し、署名および押印をして下さい。(2部両方へのご記入/ご署名/押印をお願い致します)
- 下記の送付先に郵送して下さい。
- 3)覚書がNIIに到着し記載内容を確認の後、データをご提供します。
お送り頂いた覚書は、NII側の押印後、1部はNIIで保管し、もう1部を利用申込者にご返送します。
データの利用許諾を示すものですので、ご利用期間中は大切に保管して下さい。
必要書類 ---
参考書類 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品
としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。