NTCIR Project
NTCIR-7 ACLIA(高度な言語横断情報検索と質問応答)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-7 ACLIA (高度な言語横断情報検索と質問応答)



NTCIR-7 ACLIAテストコレクションは、中国語(簡体字(CS)、繁体字(CT))、日本語(JA)、英語(EN)間の以下のような言語横断情報アクセスcross-lingual information access に関する以下のような実験に使用することができます。


*"X-Y サブタスク"とは、X言語の質問に対してY言語の文書データから回答を抽出することを指します。

文書データは1998-2001にアジア地域で発行された中国語(簡体字、繁体字)および日本語の新聞記事の全文です。 当テストコレクションは100問の日本語質問(JA-JAサブタスク用)、100問の中国語(簡体字)質問(CS-CSサブタスク用)、100問の中国語(繁体字)質問(CT-CTサブタスク用)、300問の英語質問(EN-JAサブタスク用に100問、EN-CSサブタスク用に100問、EN-CTサブタスク用に100問)、質問に対する重み付き正解ナゲット、正解の根拠となる記事のIDを含みます。情報検索タスクでは同じ質問が検索課題として利用されました。テストコレクションにはまた、これらの対象言語での適合判定情報も含まれています。
コレクション タスク
文書データ タスクデータ
ジャンル 名称 言語 年度 文書数 サイズ 質問

正解判定

言語
NTCIR-7
ACLIA

QA

News articles

Xinhua (A)

Simplified
Chinese

1998-
2001

295,875 511 MB CJE EN-JA: 100
JA-JA: 100
EN-CS: 100
CS-CS: 100
EN-CT: 100
CT-CT: 100
2段階(ナゲットの含有)
Lianhe Zaobao (B)

Simplified
Chinese

1998-
2001

249,287 411 MB
CIRB20 (B)

Traditional
Chinese

1998-
1999

249,508 320 MB
CIRB40 (B) Traditional
Chinese
2000-
2001
901,446 582 MB
Mainichi (C) Japanese 1998-
2001
419,759 544 MB

IR

News articles

Xinhua (A)

Simplified
Chinese

1998-
2001

295,875 511 MB CJE EN-JA: 98*
JA-JA: 98*
EN-CS: 97*
CS-CS: 97*
EN-CT: 95*
CT-CT: 95*
3段階
Lianhe Zaobao (B)

Simplified
Chinese

1998-
2001

249,287 411 MB
CIRB20 (B)

Traditional
Chinese

1998-
1999

249,508 320 MB
CIRB40 (B) Traditional
Chinese
2000-
2001
901,446 582 MB
Mainichi (C) Japanese 1998-
2001
419,759 544 MB

*該当する関連文書が存在しないため、いくつかのトピックを除きました。

(A) --ワークショップ参加者以外の新規申し込みの方はLinguistic Data Consortium (LDC) 社よりXinhua新聞記事データを含むChinese Gigawordが購入できます。記事データ入手後、こちらの Perl スクリプトにてフォーマットを変換してください。
(B) NIIから研究利用目的でデータ提供
(C) --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社よ り研究目的用CD-毎日新聞記事データが購入できます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から 購入することができます。購入した記事データをNTCIRコレクション用文書データとして使用するためには、下記のURLよりスクリプトをダウンロード し、フォーマットをNTCIR用に変換してください。 
・スクリプト mai2ntc-r.pl:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/mai2ntc-r.pl_txt
・README【mai2ntc-r.pl】:http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/READMEforMainichiScript-r.txt

文書データ, 検索課題および適合判定

文書データ

NTCIR-7 ACLIAテストコレクションで使用する文書データは以下の通りです。

A.1 中国語データセット(簡体字)

Xinhua (Copyright: Xinhua News Agency) 1998-2001

Lianhe Zaobao (Copyright: Singapore Press Holdings Limited) 1998-2001

A.2 中国語データセット(繁体字)

CIRB020: United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, Star News (Copyright: UDN.COM) 1998-1999 

CIRB40: United Daily News, United Express, Ming Hseng News, Economic Daily News (Copyright: UDN.COM news agency) 2000-2001 

A.3 日本語データセット

毎日新聞 (Copyright: 毎日新聞社) 1998-2001
 

使用されているタグ

TREC format に準拠しています。

Mandatory tags

<DOC>

</DOC>

The tag for each document

<DOCNO>

</DOCNO>

Document identifier

<LANG>

</LANG>

Language code: ZH, EN, JA,KR

<HEADLINE>

</HEADLINE>

Title of this news article

<DATE>

</DATE>

Issue date

<TEXT>

</TEXT>

Text of news article

Optional tags

<P>

</P>

Paragraph marker

<SECTION>

</SECTION>

Section identifier in original newspapers

<AE>

</AE>

Contain figures or not

<WORDS>

</WORDS>

Number of words in 2 bytes


質問フォーマットQuestions

質問文の例

<TOPIC_SET>

  <METADATA>
    <DESCRIPTION>NTCIR-7 ACLIA Training questions</DESCRIPTION>
    <VERSION>v20071116</VERSION>
    <LANGUAGE TARGET="JA" />
    <CORPUS>Mainichi Newspaper (1998-2001)</CORPUS>
  </METADATA>
  
  <TOPIC ID="ACLIA1-JA-T1">
    <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
    <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
    <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
    <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
  </TOPIC>
  
</TOPIC_SET>


詳細については、こちらをご覧ください。

Gold Standard

正解ファイルの例

<TOPIC_SET>
  <METADATA>
    <DESCRIPTION>NTCIR-7 ACLIA Training questions and answers</DESCRIPTION>
    <VERSION>v20071116</VERSION>
    <LANGUAGE TARGET="JA" />
    <CORPUS>Mainichi Newspaper (1998-2001)</CORPUS>
  </METADATA>
  
  <TOPIC ID="ACLIA1-JA-T1" TITLE="ファタハ">
    <QUESTION LANG="EN"><![CDATA[What is Fatah?]]></QUESTION>
    <QUESTION LANG="JA"><![CDATA[ファタハとはどんな組織ですか?]]></QUESTION>
    <ANSWERTYPE>DEFINITION</ANSWERTYPE>
    <NARRATIVE LANG="EN"><![CDATA[The analyst is especially interested in major characteristics of the organization called Fatah.]]></NARRATIVE>
    <NARRATIVE LANG="JA"><![CDATA[ファタハの一般的な情報と活動内容についての回答を求めています。]]></NARRATIVE>
    <ANSWER>
      <TEXT ID="1" DOCNO="JA-010101032"><![CDATA[パレスチナ解放機構(PLO)の主流派ファタハ]]></TEXT>
      <TEXT ID="2" DOCNO="JA-011218020"><![CDATA[ファタハが反イスラエル抵抗闘争の主体となっている]]></TEXT>
      <TEXT ID="3" DOCNO="JA-211221040"><![CDATA[アラファト議長の最大支持基盤であるファタハは13日、]]></TEXT>
      <NUGGET ID="1" VITAL="10" NONVITAL="0" SCORE="1.0"><![CDATA[パレスチナ解放機構(PLO)主流派]]></NUGGET>
      <NUGGET ID="2" VITAL="3" NONVITAL="7" SCORE="0.3"><![CDATA[反イスラエル抵抗闘争の主体となっている]]></NUGGET>
      <NUGGET ID="3" VITAL="9" NONVITAL="1" SCORE="0.9"><![CDATA[アラファト議長の最大支持基盤]]></NUGGET>
    </ANSWER>
  </TOPIC>
  
</TOPIC_SET>


詳細については、こちらをご覧ください。

 入手方法

    お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

タスクデータ文書データ不要の場合

文書データ
    
    
利用規定
をよくお読み頂き、内容を十分にご確認の上、お申込み下さい。

必要書類 ---   

参考書類 ---   


「覚書」または「利用申請書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。