[ENGLISH] [NTCIR Home] [NTCIR Tools Home]
入手したXinhua English新聞記事データのフォーマットをNTCIR 用に変換するためのスクリプトです。
1.Xinhua English 新聞記事データの入手方法
- ワークショップ参加者以外の新規申込の方は、NTCIRテストコレクションで使用するXinhua English新聞記事データ(1998-2001)をLinguistic Data Consortium (LDC) より、研究目的用で購入できます。
Linguistic Data Consortium (LDC):http://www.ldc.upenn.edu/
- LDC2002T31 The AQUAINT Corpus of English News Text (NTCIR-4CLIR で使用するXinhua English新聞記事データ 98-99を含む)https://catalog.ldc.upenn.edu/LDC2002T31
- English Gigaword (Xinhua English新聞記事データ 98-01を含む)
- LDC2003T05 English Gigaword: https://catalog.ldc.upenn.edu/LDC2003T05
- LDC2005T12 English Gigaword Second Edition: https://catalog.ldc.upenn.edu/LDC2005T12
- LDC2007T07 English Gigaword Third Edition: https://catalog.ldc.upenn.edu/LDC2007T07
- LDC2009T13 English Gigaword Fourth Edition: https://catalog.ldc.upenn.edu/LDC2009T13
2.NTCIR用記事データへの変換スクリプト: xie2ntc2.pl (Xinhua English 98-99, 00-01用)
- 1.で入手した記事データを、NTCIRテストコレクション用文書データとして使用するために、下記のURLよりスクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
http://research.nii.ac.jp/ntcir/tools/xie2ntc2.pl_txt
スクリプト: xie2ntc.pl (Xinhua English 98-99用)
http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/xie2ntc.pl_txt
README
http://research.nii.ac.jp/ntcir/permission/ntcir-4/script/READMEforXinhuaScript.txt