情報検索システム評価用テストコレクション構築プロジェクト NTCIRお問合せNII
NTCIR HOMEへ

NTCIR-9 HOME
ワークショップの目的
新着情報
会議参加者募集
協賛・スポンサー
プログラム
Keynote
会議参加登録
旅行情報
ホテル情報
トラベルサポート
ビザ
論文投稿方法
Evaluation Tasks
INTENT
Vis-EX
RITE
CrossLink
GeoTime
PatentMT
SpokenDoc
タスク提案募集
参加者募集
データ
EVIA 2011
論文募集
オーガナイザ
協力機関
プログラム委員会
EVIAプログラム委員会
重要な日程
タスク参加
お問合せ
NTCIR HOMEへ
これまでのNTCIR
データ/ツール
会議論文集
よくあるお問い合せ

第9回NTCIRワークショップ
デ-タ
[English]

NTCIR-9 Test Collections: Documents

NTCIR-9ワークショップで使用される文書は以下の通りです。ワークショップに参加する研究グループはNTCIR-9のタスクへの参加とNTCIR-9ワークショップ内でのシステム評価目的で、これらのデータを利用可能です(注1)。データの入手には、 テストコレクション利用許諾に関する覚書 に記名押印の上、NTCIR事務局までご送付下さい。

*1: NIIから配布されるテストコレクションおよびデータは、全て無料です。他機関から配布される一部データにつきましては、費用負担が必要となる場合がございます。

|CrossLink|GeoTime|INTENT|PatentMT|RITE|SpokenDoc|VisEX|

タスク サブタスク データ
データ種類 ジャンル/タスク 言語 ファイル名 配布予定日 文書数/トピック数
(サイズ)
年度
core GeoTime 文書データ 新聞記事 E New York Times ready to use**a
315,417
*B
02-05
Xinhua English ready to use**a 406,792 98-01
Mainichi Daily Jan 05, 2011 24,878 98-01
Korea Times Jan 05, 2011 50,129 98-01
J Mainichi Jan 05, 2011 797,700 98-05
K Hankookilbo 1998-2001 Jan 05, 2011 235,171 98-01
Chosenilbo Jan 05, 2011 239,641 98-01
タスクデータ IR JE NTCIR-9 GeoTime タスクデータ - - -
タスクデータ (システム訓練用) IR JE NTCIR-8 GeoTime タスクデータ - - -
INTENT 文書データ Web Cs SogouT ready to use
**b
ca.130M pages
(ca. 5TB)
crawled and released on Nov 2008
SogouQ ready to use
**b
- collected in 2008
(consistent with SogouT)
J ClueWeb09 ready to use
**c
ca. 67M Japanese pages
*A
crawled during Jan and Feb 2009
タスクデータ subtopic mining CsJ NTCIR-9 INTENT タスクデータ Jun/Jul, 2011 100 Topics for each language -
document ranking CsJ -
タスクデータ One Click Access J NTCIR-9 1Click タスクデータ Jun/Jul, 2011 60 Topics -
SpokenDoc 文書データ spoken documents J 日本語話し言葉コーパス ready to use
**d
- -
タスクデータ Spoken Term Detection NTCIR-9 SpokenDoc タスクデータ - - -
Spoken Document Retrieval - - -
RITE 文書データ 新聞記事 Cs Xinhua Chinese ready to use**a 604,720 98-05
Ct UDN2002-2005 - 1,663,517 02-05
CIRB020( United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, Star News) - 249,508 98-99
CIRB040r( United Daily News, United Express, Ming Hseng News, Economic Daily News) - 901,446 00-01
J Mainichi - 797,700 98-05
タスクデータ Binary classification Cs
Ct
J
NTCIR-9 RITE タスクデータ - - -
Multi-class classification - - -
RITE4QA - - -
Pilot CrossLink 文書データ Web
(Wikipedia)
C Chinese Wikipedia Jan 05, 2011 285,624
(1.9GB)
Jun 27, 2010
J Japanese Wikipedia Jan 05, 2011 716,088
(6.1GB)
Jun 24, 2010
K Korean Wikipedia Jan 05, 2011 201,596
( 1.2GB)  
Jun 28, 2010
タスクデータ Cross-lingual link discovery E NTCIR-9 CrossLink タスクデータ Jan 05, 2011 Two sets of 25 articles chosen from English Wikipedia -
Vis-EX 文書データ 新聞記事IE/
analysis
E Xinhua English ready to use**a 409,792 98-01
J Mainichi Jan 05, 2011 419,759
(535MB)
98-01
タスクデータ EJ NTCIR-9 Vis-EXデータセット - - -
NTCIR-8 ACLIA
IR/QAデータ
Jan 05, 2011 - -
NTCIR-7 MuST データセット Jan 05, 2011 701
(2.9MB)
98-01
PatentMT C to E タスクデータ Patent Translation C NTCIR-9 PatentMT テストデータ May 9, 2011
**e
- 06-07
E NTCIR-9 PatentMT 参照訳データ -
**e
- 06-07
文書データ (システム訓練用) patent full E Patent grant data published from USPTO Jan 05, 2011 - 93-05
タスクデータ (システム訓練用) Patent Translation C-E NTCIR-9 PatentMT 中英対訳コーパス Jan 05, 2011
**e
- -
NTCIR-9 PatentMT 中英対訳開発データ Jan 05, 2011
**e
- -
E to J
タスクデータ Patent Translation E NTCIR-9 PatentMT テストデータ May 9, 2011 - 06-07
J NTCIR-9 PatentMT 参照訳データ - - 06-07
文書データ (システム訓練用) patent full J

Publication of unexamined patent applications

Jan 05, 2011 - 93-05
タスクデータ
(システム訓練用)
Patent Translation J-E NTCIR-9 PatentMT 日英対訳コーパス Jan 05, 2011 - -
NTCIR-9 PatentMT 日英対訳開発データ
J to E
タスクデータ Patent Translation J NTCIR-9 PatentMT テストデータ May 9, 2011 - 06-07
E NTCIR-9 PatentMT 参照訳データ - - 06-07
文書データ (システム訓練用) patent full E Patent grant data published from USPTO Jan 05, 2011 - 93-05
タスクデータ
(システム訓練用)
Patent Translation J-E NTCIR-9 PatentMT 日英対訳コーパス Jan 05, 2011 - -
NTCIR-9 PatentMT 日英対訳開発データ
[Return to top]

*A: ClueWeb09 コレクション全体は、ウェブページ約10億件から構成されています。
*B: 2003.02-2004.05発行分のデータについては、文書数が少なくなっています。2004.06発行分については、データが存在しません。

1: タスクデータの詳細につきましては、各タスクのWebページをご覧ください。
2: **のついたデータにつきましては、他のデータと入手方法等が異なります。

**a: ワークショップ参加者は、専用の覚書をLDCに送付することにより、LDCからデータが提供されます。

**b: Sogou labs から、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://www.sogou.com/labs/dl/license.html (中国語のみ)

**c:Carnegie Mellon Universityから、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://boston.lti.cs.cmu.edu/Data/clueweb09/.

**d: 国立国語研究所から、研究目的利用でデータを入手することが可能です(有料)。利用契約の詳細につきましては、こちらのページをご覧ください。http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/020/

**e: ワークショップ参加者は、専用の覚書をThe Hong Kong Institute of Education (HKIED) に送付することにより、HKIEDからデータが提供されます。 利用許諾については、こちらのページをご覧ください。
http://research.nii.ac.jp/ntcir/ntcir-9/ntcir9cepc-patmt.html

3: これらの文書データはワークショップの課題遂行および課題に関する研究目的にのみ利用できるものであり、情報を得る目的で利用できるものではありません。
[Return to top]

Last Modified:2011.06.26