[ENGLISH] [NTCIR Home] [NTCIR Tools Home]
配布されるNew York Times (英文)新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。
1.New York Times 新聞記事データの入手方法
NTCIR-8 GeoTimeおよびMOAT参加者の方は、下記のページをご参照ください。
- NTCIR-8 GeoTime :http://research.nii.ac.jp/ntcir/ntcir-ws8/permission/ntcir8nyt-geotime.html
- NTCIR-8 MOAT: http://research.nii.ac.jp/ntcir/ntcir-ws8/permission/ntcir8xinhua-nyt-moat.html
- ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するNew York Times新聞記事データ(2002-2005)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。
Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu/
LDC2007T07: English Gigaword Third Edition (NTCIR-8 GeoTime, MOATで使用するNew York Times新聞記事データ02-05を含む):
https://catalog.ldc.upenn.edu/LDC2007T072.NTCIR用記事データへの変換スクリプト
- 1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
http://research.nii.ac.jp/ntcir/tools/nyt2ntc.pl
README
http://research.nii.ac.jp/ntcir/tools/README-for-nyt2ntcScript.txt