NTCIR Project
ツール
xin2ntc.1.pl

[ENGLISH] [NTCIR Home] [NTCIR Tools Home]


xin2ntc.1.pl

配布されるXinhua Chinese新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。

1.Xinhua Chinese 新聞記事データの入手方法

NTCIR-8 ACLIAおよびMOAT参加者の方は、下記のページをご参照ください。
ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するXinhua Chinese (1998-2005)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。

Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu/
LDC2007T38: Chinese Gigaword Third Edition (NTCIR-8 ACLIA, MOATで使用するXinhua Chinese新聞記事データ98-05を含む):
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T38

   
2.NTCIR用記事データへの変換
 
1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。       
      
 スクリプト・README
http://research.nii.ac.jp/ntcir/tools/xin2ntc.1.pl_txt (updated on 2009-8-10)