[ENGLISH] [NTCIR Home] [NTCIR Tools Home]
配布されるXinhua Chinese新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。
1.Xinhua Chinese 新聞記事データの入手方法
NTCIR-8 ACLIAおよびMOAT参加者の方は、下記のページをご参照ください。
- NTCIR-8 ACLIA: (Xinhua Chinese 1998-2005)http://research.nii.ac.jp/ntcir/ntcir-ws8/permission/ntcir8xinhua-chinese-aclia.html
- NTCIR-8 MOAT: (Xinhua Chinese 2002-2005)http://research.nii.ac.jp/ntcir/ntcir-ws8/permission/ntcir8xinhua-nyt-moat.html
- ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するXinhua Chinese (1998-2005)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。
Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu/
LDC2007T38: Chinese Gigaword Third Edition (NTCIR-8 ACLIA, MOATで使用するXinhua Chinese新聞記事データ98-05を含む):https://catalog.ldc.upenn.edu/LDC2007T382.NTCIR用記事データへの変換スクリプト・README
- 1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
http://research.nii.ac.jp/ntcir/tools/xin2ntc.1.pl_txt (updated on 2009-8-10)