NTCIR Project
ツール
xin2ntc.pl

[ENGLISH] [NTCIR Home] [NTCIR Tools Home]


xin2ntc.pl

入手したXinhua Chinese新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。

1.Xinhua Chinese 新聞記事データの入手方法

ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するXinhua Chinese (1998-2001)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。

Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu/

Chinese Gigaword (NTCIR-7 ACLIA, MOATで使用するXinhua Chinese新聞記事データ98-01を含む):

   

2.NTCIR用記事データへの変換

 
1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。       
      

 スクリプト・README
http://aclia.lti.cs.cmu.edu/wiki/TaskDefinition?action=AttachFile&do=view&target=xin2ntc.pl