情報検索システム評価用テストコレクション構築プロジェクト NTCIRお問合せNII
NTCIR HOMEへ

NTCIR-8 HOMEへ
NTCIR-8 成果報告会
タスクの概要
・タスクの情報
ACLIA
GeoTime
MOAT
PAT-MN
PAT-MT
PILOT TASK
タスク参加方法の説明
データ
重要な日程
参加者用覚書
お問合せ
メイリングリスト
成果報告会論文集
NTCIR HOMEへ

第8回NTCIRワークショップ

データ詳細
データ一覧データ詳細

[English]

NTCIR-8 Test Collections: Documents

NTCIR-8ワークショップで使用される文書は以下の通りです。ワークショップに参加する研究グループはNTCIR-8のタスクへの参加とNTCIR-8ワークショップ内でのシステム評価目的で、これらのデータを無料で利用可能です(注1)。データの入手には、user agreement forms(覚書)に記名押印の上、NTCIR事務局までご送付下さい。

*注1:LDCより配布されるデータにつきましては、配布経費の一部(50USドル程度)のご負担をお願いする可能性がございます。

task test
collection
data
genre/
task
language file name Distribution
Data
number of documents (size) year
ACLIA Document
Data
news articles Ct
UDN2002-2005 01-07-09 1,663,517 02-05
Cs Xinhua Chinese**a 01-07-09 308,845 02-05
J Mainichi 01-07-09 - 02-05
Task Data QA CtCs
JE
NTCIR-8 ACLIA QA data - - -
IR CtCs
JE
NTCIR-8 ACLIA IR data - - -
Document
Data for system training purposes
news articles Ct
CIRB011(China Times, Commercial Times, China Times Express, Central Daily News, China Daily News) 01-07-09 132,173 98-99
CIRB020( United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, Star News) 01-07-09 249,508 98-99
CIRB040r( United Daily News, United Express, Ming Hseng News, Economic Daily News) 01-07-09 901,446 00-01
Cs Lianhe Zaobao 01-07-09 249,287 98-01
Xinhua Chinese**a 01-07-09 295,875
J Mainichi 01-07-09 419,759 98-01
Task Data
for system training purposes
QA CJE NTCIR-5/6 CLQA data 01-07-09 - -
J NTCIR-3/4/5/6 QA data 01-07-09
IR CtK
JE
NTCIR-3/4/5/6 CLIR data 01-07-09
QA/
IR
CtCs
JE
NTCIR-7 ACLIA CCLQA/IR4QA data 01-07-09 - -
GeoTime Document
Data
news articles J Mainichi 01-07-09 - 02-05
E New York Times
*B **a
01-07-09 315,417 02-05
Task Data
IR JE - - - -
MOAT Document
Data
news articles J Mainichi 01-07-09 - 02-05
E New York Times
*B **a
01-07-09 315,417 02-05
Ct UDN2002-2005 (United Daily News, United Express, Ming Hseng News, Economic Daily News, Star News) 01-07-09 1,663,517 02-05
Cs Xinhua Chinese**a 01-07-09 308,845 02-05
Task Data IE/
analysis
J NTCIR-8MOAT Japanese Annotation Data
(Mainichi
2002-2005)
01-10-09
- 02-05
E NTCIR-8MOAT English Annotation Data
(New York Times 2002-2005
)**a
01-10-09 - 02-05
Ct NTCIR-8MOAT Chinese (traditional) Annotation Data
(UDN2002-2005)
01-10-09 - 02-05
Cs NTCIR-8MOAT Chinese (simplified) Annotation Data
(Xinhua Chinese 2002-2005)**a
01-10-09 - 02-05
Task Data for system training purposes IE/
analysis
J NTCIR-6 OAT JapaneseAnnotation Data:Part A
(Mainichi 1998-2001)
01-07-09 490 98-01
98-01
NTCIR-7MOAT Japanese Annotation Data
(Mainichi 1998-2001)
01-07-09 287 98-01
E NTCIR-6 OAT English Annotation Data:Part A
(Mainichi Daily 1998-2001, Korea Times 2000-2001, Hong Kong Standard 1998-1999)
01-07-09 439 98-01
98-01
NTCIR-6 OAT English Annotation Data:Part B
(Xinhua 1998-2001)

**a
01-07-09 98-01
NTCIR-7MOAT English Annotation Data:Part A
(Mainichi Daily 1998-2001, Korea Times 2000-2001, Hong Kong Standard 1998-1999, Straits Times 98-01)
01-07-09 167 98-01
NTCIR-7MOAT English Annotation Data:Part B
(Xinhua English 98-01)
**a
01-07-09 98-01
Ct NTCIR-6 OAT Chinese(traditional) Annotation Data
(CIRB020 1998-1999, CIRB040 2000-2001)
01-07-09 843 98-01
NTCIR-7MOAT Chinese (traditional) Annotation Data
(CIRB020 1998-1999, CIRB040 2000-2001
01-07-09 246 98-01
Cs NTCIR-7MOAT Chinese (simplified) Annotation Data: Part A
(Lianhe Zaobao 98-01)
01-07-09 271 98-01
NTCIR-7MOAT Chinese (simplified) Annotation Data: Part B
(Xinhua Chinese 98-01)
**a
01-07-09 98-01
Patent Mining Document Data patent full J

Publication of unexamined patent applications

01-07-09 3,496,252
( 94.5GB)
93-02
patent abstract E

Patent Abstracts of Japan (PAJ)

01-07-09 3,496,252
(ca.5GB)
93-02
patent full E Patent grant data published from USPTO 01-07-09 981,948 93-02
sci.
abstract
JE NTCIR-1 01-07-09 861,481 88-97
sci.
abstract
JE NTCIR-2 01-07-09 535,226 86-99
*A
Task Data Mining JE NTCIR-8 Patent Mining Task Data:
Research papers Classification susbtask and Technical Trend Map Subtask
01-12-09 - -
Patent Translation Document
Data
patent full J

Publication of unexamined patent applications

01-07-09 - 93-07
patent full E Patent grant data published from USPTO 01-07-09 - 93-07
Task Data MT JE NTCIR-8 Patent Translation Task Data:
Translation subtask, Cross-Lingual Information Retrieval subtask and Evaluation subtask
- - -

*A: gakkai subfiles:1997-1999, kaken subfiles: 1986-1997
*B: 2003.02-2004.05発行分のデータについては、文書数が少なくなっています。2004.06発行分については、データが存在しません。

1: タスクデータの詳細につきましては、各クラスタ・タスクのWebページをごらん下さい。

2: **のついたデータにつきましては、他のデータと入手方法等が異なります。
**a:ワークショップ参加者は、専用の覚書を送付することにより、LDCからデータが提供されます。

3: これらの文書データはワークショップの課題遂行および課題に関する研究目的にのみ利用できるものであり、情報を得る目的で利用できるものではありません。


Last Modified:2009.11.24