NTCIR Project
ツール
nyt2ntc.pl

[ENGLISH] [NTCIR Home] [NTCIR Tools Home]


nyt2ntc.pl

配布されるNew York Times (英文)新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。

1.New York Times 新聞記事データの入手方法

NTCIR-8 GeoTimeおよびMOAT参加者の方は、下記のページをご参照ください。
ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するNew York Times新聞記事データ(2002-2005)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。

Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu/
LDC2007T07: English Gigaword Third Edition (NTCIR-8 GeoTime, MOATで使用するNew York Times新聞記事データ02-05を含む):
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T07

   
2.NTCIR用記事データへの変換
 
1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。       
      
 スクリプト
http://research.nii.ac.jp/ntcir/tools/nyt2ntc.pl
 README
http://research.nii.ac.jp/ntcir/tools/README-for-nyt2ntcScript.txt