NTCIR (NII Testbeds and Community for Information access Research) Project NTCIRお問合せNII
NTCIR HOMEへ

NTCIR-10 HOME
新着情報
NTCIR-10 カンファレンス
会議参加者募集
ワークショップの目的
NTCIR-11タスク提案募集
タスク参加
タスク参加者募集
Evaluation Tasks
CrossLink
INTENT
1CLICK
PatentMT
RITE
SpokenDoc
MATH
MedNLP
タスク提案募集
データ
EVIA 2013
論文募集
論文投稿方法
運営組織
タスクオーガナイザ
協力機関
プログラム委員会
EVIAプログラム委員会
重要な日程
協賛・スポンサー
旅行情報
ホテル情報
トラベルサポート
VISA
お問合せ
NTCIR HOMEへ
これまでのNTCIR
データ/ツール
会議論文集
よくあるお問い合せ

第10回NTCIRワークショップ
デ-タ
[English]

NTCIR-10 Test Collections: Documents

NTCIR-10ワークショップで使用される文書は以下の通りです。ワークショップに参加する研究グループはNTCIR-10のタスクへの参加とNTCIR-10ワークショップ内でのシステム評価目的で、これらのデータを利用可能です(注1)。データの入手には、 テストコレクション利用許諾に関する覚書 に記名押印の上、NTCIR事務局までご送付下さい。

*1: NIIから配布されるテストコレクションおよびデータは、全て無料です。他機関から配布される一部データにつきましては、費用負担が必要となる場合がございます。

|CrossLink|INTENT|1CLICK |PatentMT|RITE|SpokenDoc|MATH|MedNLP|

タスク サブタスク データ
データ種類 ジャンル/タスク 言語 ファイル名 配布予定日 文書数/トピック数
(サイズ)
年度
core CrossLink 文書データ Web
(Wikipedia)
C NTCIR-10
Chinese Wikipedia
Jul 01, 2012 432,988
(3.7GB)
Jun 11, 2012
E NTCIR-10
English Wikipedia
Jul 01, 2012 3,581,772
(33GB)
Jun 04, 2012
J NTCIR-10
Japanese Wikipedia
Jul 01, 2012 937,444
(11GB)
Jun 04, 2012
K NTCIR-10
Korean Wikipedia
Jul 01, 2012 405,536
( 2.7GB)  
Jun 22, 2012
文書データ (システム訓練用) Web
(Wikipedia)
C NTCIR-9
Chinese Wikipedia
ready to use
**a
285,624
(1.9GB)
Jun 27, 2010
J NTCIR-9
Japanese Wikipedia
ready to use
**a
716,088
(6.1GB)
Jun 24, 2010
K NTCIR-9
Korean Wikipedia
ready to use
**a
201,596
( 1.2GB)  
Jun 28, 2010
タスクデータ Cross-lingual link discovery CEJK NTCIR-10 CrossLink タスクデータ Jul 01, 2012 25 articles each in four (CEJK) languages -
タスクデータ (システム訓練用 Cross-lingual link discovery E NTCIR-9 CrossLink 課題データ ready to use
**a
Two sets of 25 articles chosen from English Wikipedia -
NTCIR-9 CrossLink 適合判定データ Jul 01, 2012 -
INTENT 文書データ Web Cs SogouT ready to use
**b
ca.130M pages
(ca. 5TB)
crawled and released on Nov 2008
SogouQ ready to use
**b
- collected in 2008
(consistent with SogouT)
J ClueWeb09 ready to use
**c
ca. 67M Japanese pages
*A
crawled during Jan and Feb 2009
タスクデータ Subtopic Mining CsEJ NTCIR-10 INTENT タスクデータ May 31, 2012/
Jun 13, 2012 (English, for Subtopic Mining only)
100 Queries for each language -
Document Ranking CsJ -
タスクデータ (システム訓練用) Subtopic Mining CsJ NTCIR-9 INTENT タスクデータ Jul 01, 2012 100 Queries for each language -
Document Ranking CsJ -
1CLICK タスクデータ One Click Access: Main Task EJ NTCIR-10 1CLICK タスクデータ Aug 31, 2012 100 Queries for each language  -
Query Classification Subtask
PatentMT C to E タスクデータ Patent Translation C NTCIR-10 PatentMT テストデータ Oct 15, 2012
**e
- 06-07
E NTCIR-10 PatentMT 参照訳データ Oct 15, 2012
**e
- 06-07
文書データ (システム訓練用) patent full E Patent grant data published from USPTO Jul 01, 2012 - 93-05
タスクデータ (システム訓練用) Patent Translation C-E NTCIR-9 PatentMT 中英対訳コーパス Jul 01, 2012
**e
ca. 1 million sentence pairs -
NTCIR-9 PatentMT 中英対訳開発データ Jul 01, 2012
**e
2000 sentence paris -
E to J タスクデータ Patent Translation E NTCIR-10 PatentMT テストデータ Oct 15, 2012 - 06-07
J NTCIR-10 PatentMT 参照訳データ Oct 15, 2012 - 06-07
文書データ (システム訓練用) patent full J

Publication of unexamined patent applications

Jul 01, 2012 - 93-05
タスクデータ (システム訓練用) Patent Translation J-E NTCIR-8 PatentMT 日英対訳コーパス Jul 01, 2012 3,186,284 sentence pairs -
NTCIR-8 PatentMT 日英対訳開発データ
J to E タスクデータ Patent Translation J NTCIR-10 PatentMT テストデータ Oct 15, 2012 - 06-07
E NTCIR-10 PatentMT 参照訳データ Oct 15, 2012 - 06-07
文書データ (システム訓練用) patent full E Patent grant data published from USPTO Jul 01, 2012 - 93-05
タスクデータ (システム訓練用) Patent Translation J-E NTCIR-8 PatentMT 日英対訳コーパス Jul 01, 2012 3,186,284 sentence pairs -
NTCIR-8 PatentMT 日英対訳開発データ
RITE 文書データ (to be announced) - - - - -
タスクデータ Binary-class CsCtJ NTCIR-10 RITE タスクデータ Nov 14, 2012 - -
Multi-class
Entrance Exam J
タスクデータ (システム訓練用) Binary-class CsCtJ NTCIR-9 RITE タスクデータ Jul 01, 2012 - -
Multi-class
Entrance Exam J
SpokenDoc 文書データ spoken documents J 日本語話し言葉コーパス ready to use
**d
- -
タスクデータ Spoken Term Detection CSJ large-size task
*B
NTCIR-10 SpokenDoc タスクデータ - - -
moderate-size task
Spoken Document Retrieval CSJ lecture retrieval task
*B
- - -
passage retrieval task
Pilot  MATH 文書データ Scientific Articles E NTCIR-10 Math 検索用文書データ Oct, 2012 100,000 docs -
NTCIR-10 Math 解析用文書データ Oct, 2012 15 docs
文書データ (システム訓練用) Scientific Articles E NTCIR-10 Math 検索用文書データ(システム訓練用) ready to use 10,000 docs
NTCIR-10 Math 解析用文書データ(システム訓練用) ready to use 10 docs
タスクデータ Math Retrieval E NTCIR-10 Math タスクデータ Oct, 2012 -
Math Understanding
MedNLP  文書データ 架空の病歴要約   J NTCIR-10 MedNLP train   Dec, 2012  2244文 - 
NTCIR-10 MedNLP test Jan, 2013  1121文
[Return to top]

*A: ClueWeb09 コレクション全体は、ウェブページ約10億件から構成されています。

*B
: このサブタスクへの参加には、国立国語研究所が公開している「日本語話し言葉コーパス」を保有していることが必要です。

1: タスクデータの詳細につきましては、各タスクのWebページをご覧ください。

2: **のついたデータにつきましては、他のデータと入手方法等が異なります。

**a: NTCIR-9 Crosslink 文書データと課題データは、 Creative Commons Attribution-Share-Alike License 3.0 (Unported) のライセンスに基づき提供されています。詳細については、こちらのページをご覧ください。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/crosslink_documents.html 

**b: Sogou labs から、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://www.sogou.com/labs/dl/license.html (中国語のみ)

**c:Carnegie Mellon Universityから、研究目的利用に限定してデータが提供されています。利用許諾については、こちらのページをご覧ください:
http://boston.lti.cs.cmu.edu/Data/clueweb09/.

**d: 国立国語研究所から、研究目的利用でデータを入手することが可能です(有料)。利用契約の詳細につきましては、こちらのページをご覧ください。http://www.kokken.go.jp/katsudo/seika/corpus/releaseinfo/020/

**e: ワークショップ参加者は、専用の覚書をThe Hong Kong Institute of Education (HKIED) に送付することにより、HKIEDからデータが提供されます。 詳細については、こちらのページをご覧ください。
http://research.nii.ac.jp/ntcir/ntcir-10/ntcir10cepc-patentmt.html

3: これらの文書データはワークショップの課題遂行および課題に関する研究目的にのみ利用できるものであり、情報を得る目的で利用できるものではありません。
[Return to top]

Last Modified:2013.08.22