|
第10回NTCIRワークショップ
デ-タ
[English]
NTCIR-10 Test Collections: Documents
NTCIR-10ワークショップで使用される文書は以下の通りです。ワークショップに参加する研究グループはNTCIR-10のタスクへの参加とNTCIR-10ワークショップ内でのシステム評価目的で、これらのデータを利用可能です(注1)。データの入手には、
テストコレクション利用許諾に関する覚書 に記名押印の上、NTCIR事務局までご送付下さい。
*1: NIIから配布されるテストコレクションおよびデータは、全て無料です。他機関から配布される一部データにつきましては、費用負担が必要となる場合がございます。
|CrossLink|INTENT|1CLICK |PatentMT|RITE|SpokenDoc|MATH|MedNLP|
|
タスク |
サブタスク |
データ |
データ種類 |
ジャンル/タスク |
言語 |
ファイル名 |
配布予定日 |
文書数/トピック数
(サイズ) |
年度 |
core |
CrossLink |
文書データ |
Web
(Wikipedia) |
C |
NTCIR-10
Chinese Wikipedia |
Jul 01, 2012 |
432,988
(3.7GB) |
Jun 11, 2012 |
E |
NTCIR-10
English Wikipedia |
Jul 01, 2012 |
3,581,772
(33GB) |
Jun 04, 2012 |
J |
NTCIR-10
Japanese Wikipedia |
Jul 01, 2012 |
937,444
(11GB) |
Jun 04, 2012 |
K |
NTCIR-10
Korean Wikipedia |
Jul 01, 2012 |
405,536
( 2.7GB) |
Jun 22, 2012 |
文書データ (システム訓練用) |
Web
(Wikipedia) |
C |
NTCIR-9
Chinese Wikipedia |
ready to use
**a |
285,624
(1.9GB) |
Jun 27, 2010 |
J |
NTCIR-9
Japanese Wikipedia |
ready to use
**a |
716,088
(6.1GB) |
Jun 24, 2010 |
K |
NTCIR-9
Korean Wikipedia |
ready to use
**a |
201,596
( 1.2GB) |
Jun 28, 2010 |
タスクデータ |
Cross-lingual link discovery |
CEJK |
NTCIR-10 CrossLink タスクデータ |
Jul 01, 2012 |
25 articles each in four (CEJK) languages |
- |
タスクデータ (システム訓練用 |
Cross-lingual link discovery |
E |
NTCIR-9 CrossLink 課題データ |
ready to use
**a |
Two sets of 25
articles chosen from English Wikipedia |
- |
NTCIR-9 CrossLink 適合判定データ |
Jul 01, 2012 |
- |
INTENT |
文書データ |
Web |
Cs |
SogouT |
ready to use
**b |
ca.130M pages
(ca. 5TB) |
crawled and released on Nov 2008 |
SogouQ |
ready to use
**b |
- |
collected in 2008
(consistent with SogouT) |
J |
ClueWeb09 |
ready to use
**c |
ca. 67M Japanese pages
*A |
crawled during Jan and Feb 2009 |
タスクデータ |
Subtopic Mining |
CsEJ |
NTCIR-10 INTENT タスクデータ |
May 31, 2012/
Jun 13, 2012 (English, for Subtopic Mining only) |
100 Queries for each language |
- |
Document Ranking |
CsJ |
- |
タスクデータ (システム訓練用) |
Subtopic Mining |
CsJ |
NTCIR-9 INTENT タスクデータ |
Jul 01, 2012 |
100 Queries for each language |
- |
Document Ranking |
CsJ |
- |
1CLICK |
タスクデータ |
One Click Access: Main Task |
EJ |
NTCIR-10 1CLICK タスクデータ |
Aug 31, 2012 |
100 Queries for each language |
- |
Query Classification Subtask |
PatentMT |
C to E |
タスクデータ |
Patent Translation |
C |
NTCIR-10 PatentMT テストデータ |
Oct 15, 2012
**e |
- |
06-07 |
E |
NTCIR-10 PatentMT 参照訳データ |
Oct 15, 2012
**e |
- |
06-07 |
文書データ (システム訓練用) |
patent full |
E |
Patent grant data published from USPTO |
Jul 01, 2012 |
- |
93-05 |
タスクデータ (システム訓練用) |
Patent Translation |
C-E |
NTCIR-9 PatentMT 中英対訳コーパス |
Jul 01, 2012
**e |
ca. 1 million sentence pairs |
- |
NTCIR-9 PatentMT 中英対訳開発データ |
Jul 01, 2012
**e |
2000 sentence paris |
- |
E to J |
タスクデータ |
Patent Translation |
E |
NTCIR-10 PatentMT テストデータ |
Oct 15, 2012 |
- |
06-07 |
J |
NTCIR-10 PatentMT 参照訳データ |
Oct 15, 2012 |
- |
06-07 |
文書データ (システム訓練用) |
patent full |
J |
Publication of unexamined patent applications
|
Jul 01, 2012 |
- |
93-05 |
タスクデータ (システム訓練用) |
Patent Translation |
J-E |
NTCIR-8 PatentMT 日英対訳コーパス |
Jul 01, 2012 |
3,186,284 sentence pairs |
- |
NTCIR-8 PatentMT 日英対訳開発データ |
J to E |
タスクデータ |
Patent Translation |
J |
NTCIR-10 PatentMT テストデータ |
Oct 15, 2012 |
- |
06-07 |
E |
NTCIR-10 PatentMT 参照訳データ |
Oct 15, 2012 |
- |
06-07 |
文書データ (システム訓練用) |
patent full |
E |
Patent grant data published from USPTO |
Jul 01, 2012 |
- |
93-05 |
タスクデータ (システム訓練用) |
Patent Translation |
J-E |
NTCIR-8 PatentMT 日英対訳コーパス |
Jul 01, 2012 |
3,186,284 sentence pairs |
- |
NTCIR-8 PatentMT 日英対訳開発データ |
RITE |
文書データ |
(to be announced) |
- |
- |
- |
- |
- |
タスクデータ |
Binary-class |
CsCtJ |
NTCIR-10 RITE タスクデータ |
Nov 14, 2012 |
- |
- |
Multi-class |
Entrance Exam |
J |
タスクデータ (システム訓練用) |
Binary-class |
CsCtJ |
NTCIR-9 RITE タスクデータ |
Jul 01, 2012 |
- |
- |
Multi-class |
Entrance Exam |
J |
SpokenDoc |
文書データ |
spoken documents |
J |
日本語話し言葉コーパス |
ready to use
**d |
- |
- |
タスクデータ |
Spoken Term Detection |
CSJ large-size task
*B |
NTCIR-10 SpokenDoc タスクデータ |
- |
- |
- |
moderate-size task |
Spoken Document Retrieval |
CSJ lecture retrieval task
*B |
- |
- |
- |
passage retrieval task |
Pilot |
MATH |
文書データ |
Scientific Articles |
E |
NTCIR-10 Math 検索用文書データ |
Oct, 2012 |
100,000 docs |
- |
NTCIR-10 Math 解析用文書データ |
Oct, 2012 |
15 docs |
文書データ (システム訓練用) |
Scientific Articles |
E |
NTCIR-10 Math 検索用文書データ(システム訓練用) |
ready to use |
10,000 docs |
NTCIR-10 Math 解析用文書データ(システム訓練用) |
ready to use |
10 docs |
タスクデータ |
Math Retrieval |
E |
NTCIR-10 Math タスクデータ |
Oct, 2012 |
- |
Math Understanding |
MedNLP |
文書データ |
架空の病歴要約 |
J |
NTCIR-10 MedNLP train |
Dec, 2012 |
2244文 |
- |
NTCIR-10 MedNLP test |
Jan, 2013 |
1121文 |
[Return to top]
*A: ClueWeb09 コレクション全体は、ウェブページ約10億件から構成されています。
*B: このサブタスクへの参加には、国立国語研究所が公開している「日本語話し言葉コーパス」を保有していることが必要です。
1: タスクデータの詳細につきましては、各タスクのWebページをご覧ください。
2: **のついたデータにつきましては、他のデータと入手方法等が異なります。
**a: NTCIR-9 Crosslink 文書データと課題データは、 Creative Commons Attribution-Share-Alike
License 3.0 (Unported) のライセンスに基づき提供されています。詳細については、こちらのページをご覧ください。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/crosslink_documents.html
**b: Sogou labs から、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://www.sogou.com/labs/dl/license.html (中国語のみ)
**c:Carnegie Mellon Universityから、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://boston.lti.cs.cmu.edu/Data/clueweb09/.
**d: 国立国語研究所から、研究目的利用でデータを入手することが可能です(有料)。利用契約の詳細につきましては、こちらのページをご覧ください。http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/020/
**e: ワークショップ参加者は、専用の覚書をThe Hong Kong Institute of Education (HKIED) に送付することにより、HKIEDからデータが提供されます。
詳細については、こちらのページをご覧ください。
http://research.nii.ac.jp/ntcir/ntcir-10/ntcir10cepc-patentmt.html
3: これらの文書データはワークショップの課題遂行および課題に関する研究目的にのみ利用できるものであり、情報を得る目的で利用できるものではありません。
[Return to top]
Last Modified:2013.08.22
|