NTCIR Project
NTCIR-8 ACLIA
(高度な言語横断情報検索と質問応答)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-8 ACLIA (高度な言語横断情報検索と質問応答) 



NTCIR-8 ACLIAテストコレクションは、中国語(簡体字(CS)、繁体字(CT)、日本語(JA)、英語(EN)間の言語横断情報アクセスcross-lingual information access に関する以下のような実験に使用することができます。


*"X-Y サブタスク"とは、X言語の質問に対してY言語の文書データから回答を抽出することを指します。

フォーマルランにおける文書データは2002-2005にアジア地域で発行された中国語(簡体字、繁体字)および日本語の新聞記事の全文です。当テストコレクションは100問の日本語質問(JA-JAサブタスク用)、100問の中国語(簡体字)質問(CS-CSサブタスク用)、100問の中国語(繁体字)質問(CT-CTサブタスク用)、300問の英語質問(EN-JAサブタスク用に100問、EN-CSサブタスク用に100問、EN-CTサブタスク用に100問)、質問に対する重み付き正解ナゲット、正解の根拠となる記事のIDを含みます。情報検索タスクでは同じ質問が検索課題として利用されました。テストコレクションにはまた、これらの対象言語での適合判定情報も含まれています。
Collection 文書データ タスクデータ
ジャンル 名称 言語 文書数 質問 判定
言語 #
NTCIR-8
ACLIA

News articles

Xinhua (B)

中国語
(簡体字)

2002-2005

308,845 CJE 100* for each language pair 2段階(ナゲットの含有) (QA); 3段階 (IR)
UDN (A)

中国語
(繁体字)

2002-2005

1,663,517
Mainichi (B) 日本語 2002-2005 377,941

Xinhua (B) --ワークショップ参加者以外の新規申し込みの方はLinguistic Data Consortium (LDC) 社よりXinhua新聞記事データを含むLDC2007T38: Chinese Gigaword Third Editionが購入できます。記事データ入手後、こちらの Perl スクリプトにてフォーマットを変換してください。
UDN (A) NIIから研究利用目的でデータ提供
Mainichi (B) --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社よ り研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から 購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、こちらのURLよりスクリプトをダウンロード し、フォーマットをNTCIR用に変換してください。 
・スクリプト mai2ntc-r-utf.pl:http://research.nii.ac.jp/ntcir/tools/mai2ntc-r-utf.pl_txt
・README【mai2ntc-r-utf.pl】:http://research.nii.ac.jp/ntcir/tools/READMEforMainichiScript-r-utf.txt

*該当する関連文書が十分存在しないため、IR4QAのフォーマルランではいくつかのトピックを除きました。詳細はタスク統括論文をご参照ください。

文書データ, 検索課題および適合判定

文書データ

NTCIR-8 ACLIAテストコレクションで使用する文書データは以下の通りです。

A.1 中国語データセット(簡体字)

A.2 中国語データセット(繁体字)

A.3 日本語データセット

 

使用されているタグ

TREC format に準拠しています。

Mandatory tags

<DOC>

</DOC>

The tag for each document

<DOCNO>

</DOCNO>

Document identifier

<LANG>

</LANG>

Language code: CS, CT, EN, JA

<HEADLINE>

</HEADLINE>

Title of this news article

<DATE>

</DATE>

Issue date

<TEXT>

</TEXT>

Text of news article

Optional tags

<P>

</P>

Paragraph marker

<SECTION>

</SECTION>

Section identifier in original newspapers

<AE>

</AE>

Contain figures or not

<WORDS>

</WORDS>

Number of words in 2 bytes


質問フォーマット Questions

質問文の例

<TOPIC_SET>

  <METADATA>
    <DESCRIPTION>NTCIR-8 ACLIA Training questions</DESCRIPTION>
    <VERSION>1.0</VERSION>
    <LANGUAGE TARGET="JA" />
    <CORPUS>Mainichi Newspaper (2002-2005)</CORPUS>
  </METADATA>
  
  <TOPIC ID="ACLIA2-JA-T1">
    <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
    <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
    <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
    <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
  </TOPIC>
  
</TOPIC_SET>


詳細については、こちらをご覧ください。

Gold Standard

正解ファイルの例

<TOPIC_SET>
  <METADATA>
    <DESCRIPTION>NTCIR-8 ACLIA Training questions and answers</DESCRIPTION>
    <VERSION>v1.0</VERSION>
    <LANGUAGE TARGET="JA" />
    <CORPUS>Mainichi Newspaper (2002-2005)</CORPUS>
  </METADATA>
  
  <TOPIC ID="ACLIA2-JA-T1" TITLE="ファタハ">
    <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
    <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
    <ANSWERTYPE>DEFINITION</ANSWERTYPE>
    <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
    <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
    <ANSWER>
      <TEXT ID="1" DOCNO="JA-010101032"><![CDATA[パレスチナ解放機構(PLO)の主流派ファタハ]]></TEXT>
      <TEXT ID="2" DOCNO="JA-011218020"><![CDATA[ファタハが反イスラエル抵抗闘争の主体となっている]]></TEXT>
      <TEXT ID="3" DOCNO="JA-211221040"><![CDATA[アラファト議長の最大支持基盤であるファタハは13日、]]></TEXT>
      <NUGGET ID="1" VITAL="10" NONVITAL="0" SCORE="1.0"><![CDATA[パレスチナ解放機構(PLO)主流派]]></NUGGET>
      <NUGGET ID="2" VITAL="3" NONVITAL="7" SCORE="0.3"><![CDATA[反イスラエル抵抗闘争の主体となっている]]></NUGGET>
      <NUGGET ID="3" VITAL="9" NONVITAL="1" SCORE="0.9"><![CDATA[アラファト議長の最大支持基盤]]></NUGGET>
    </ANSWER>
  </TOPIC>
  
</TOPIC_SET>


詳細については、こちらをご覧ください。

 入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

【タスクデータ】(文書データ不要の場合)

【文書データ】

利用規定」をよくお読み頂き、内容を十分にご確認の上、お申込み下さい。  

101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。