[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-8 ACLIAテストコレクションは、中国語(簡体字(CS)、繁体字(CT)、日本語(JA)、英語(EN)間の言語横断情報アクセスcross-lingual
information access に関する以下のような実験に使用することができます。
Collection | 文書データ | タスクデータ | ||||||
ジャンル | 名称 | 言語 | 年 | 文書数 | 質問 | 判定 | ||
言語 | # | |||||||
NTCIR-8 ACLIA |
News articles |
Xinhua (B) |
中国語 |
2002-2005 |
308,845 | CJE | 100* for each language pair | 2段階(ナゲットの含有) (QA); 3段階 (IR) |
UDN (A) |
中国語 |
2002-2005 |
1,663,517 | |||||
Mainichi (B) | 日本語 | 2002-2005 | 377,941 |
Xinhua (B) | --ワークショップ参加者以外の新規申し込みの方はLinguistic Data Consortium (LDC) 社よりXinhua新聞記事データを含むLDC2007T38: Chinese Gigaword Third Editionが購入できます。記事データ入手後、こちらの Perl スクリプトにてフォーマットを変換してください。 |
UDN (A) | NIIから研究利用目的でデータ提供 |
Mainichi (B) | --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社よ り研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から
購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、こちらのURLよりスクリプトをダウンロード し、フォーマットをNTCIR用に変換してください。 ・スクリプト mai2ntc-r-utf.pl:http://research.nii.ac.jp/ntcir/tools/mai2ntc-r-utf.pl_txt ・README【mai2ntc-r-utf.pl】:http://research.nii.ac.jp/ntcir/tools/READMEforMainichiScript-r-utf.txt |
*該当する関連文書が十分存在しないため、IR4QAのフォーマルランではいくつかのトピックを除きました。詳細はタスク統括論文をご参照ください。
NTCIR-8 ACLIAテストコレクションで使用する文書データは以下の通りです。
A.1 中国語データセット(簡体字)
A.2 中国語データセット(繁体字)
A.3 日本語データセット
使用されているタグ
TREC format に準拠しています。
Mandatory tags |
||
<DOC> |
</DOC> |
The tag for each document |
<DOCNO> |
</DOCNO> |
Document identifier |
<LANG> |
</LANG> |
Language code: CS, CT, EN, JA |
<HEADLINE> |
</HEADLINE> |
Title of this news article |
<DATE> |
</DATE> |
Issue date |
<TEXT> |
</TEXT> |
Text of news article |
Optional tags |
||
<P> |
</P> |
Paragraph marker |
<SECTION> |
</SECTION> |
Section identifier in original newspapers |
<AE> |
</AE> |
Contain figures or not |
<WORDS> |
</WORDS> |
Number of words in 2 bytes |
質問フォーマット Questions
質問文の例
<TOPIC_SET>
<METADATA>
<DESCRIPTION>NTCIR-8 ACLIA Training questions</DESCRIPTION>
<VERSION>1.0</VERSION>
<LANGUAGE TARGET="JA" />
<CORPUS>Mainichi Newspaper (2002-2005)</CORPUS>
</METADATA>
<TOPIC ID="ACLIA2-JA-T1">
<QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
<QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
<NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
<NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
</TOPIC>
</TOPIC_SET>
Gold Standard
正解ファイルの例
<TOPIC_SET>
<METADATA>
<DESCRIPTION>NTCIR-8 ACLIA Training questions and answers</DESCRIPTION>
<VERSION>v1.0</VERSION>
<LANGUAGE TARGET="JA" />
<CORPUS>Mainichi Newspaper (2002-2005)</CORPUS>
</METADATA>
<TOPIC ID="ACLIA2-JA-T1" TITLE="ファタハ">
<QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
<QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
<ANSWERTYPE>DEFINITION</ANSWERTYPE>
<NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
<NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
<ANSWER>
<TEXT ID="1" DOCNO="JA-010101032"><![CDATA[パレスチナ解放機構(PLO)の主流派ファタハ]]></TEXT>
<TEXT ID="2" DOCNO="JA-011218020"><![CDATA[ファタハが反イスラエル抵抗闘争の主体となっている]]></TEXT>
<TEXT ID="3" DOCNO="JA-211221040"><![CDATA[アラファト議長の最大支持基盤であるファタハは13日、]]></TEXT>
<NUGGET ID="1" VITAL="10" NONVITAL="0" SCORE="1.0"><![CDATA[パレスチナ解放機構(PLO)主流派]]></NUGGET>
<NUGGET ID="2" VITAL="3" NONVITAL="7" SCORE="0.3"><![CDATA[反イスラエル抵抗闘争の主体となっている]]></NUGGET>
<NUGGET ID="3" VITAL="9" NONVITAL="1" SCORE="0.9"><![CDATA[アラファト議長の最大支持基盤]]></NUGGET>
</ANSWER>
</TOPIC>
</TOPIC_SET>
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
【タスクデータ】(文書データ不要の場合)
【文書データ】
「利用規定」をよくお読み頂き、内容を十分にご確認の上、お申込み下さい。
必要書類 ---
参考書類 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。