NTCIR-11 Workshop

NTCIR-11 テストコレクション: NTCIR-11 ワークショップ参加者用データセット一覧


NTCIR-11 ワークショップで使用される文書は以下の通りです。ワークショップに参加する研究グループはNTCIR-11のタスクへの参加とNTCIR-11ワークショップ内でのシステム評価目的で、これらのデータを利用可能です(注1)。データの入手には、テストコレクション利用許諾に関する覚書 に記名押印の上、NTCIR事務局までご送付ください。

注1: NIIから配布されるテストコレクションおよびデータは、全て無料です。他機関から配布される一部データにつきましては、費用負担が必要となる場合がございます。

タスク サブタスク データ
データ種類 ジャンル/タスク 言語 ファイル名 配布予定日 文書数/
トピック数 (サイズ)
年度
core   IMine 文書データ Web Cs SogouT ready to use
**a
ca.130M pages
(ca. 5TB)
crawled and released on Nov 2008
SogouQ ready to use
**a
About 4GB collected in 2008/2011
E ClueWeb12-B3 ready to use
**b

crawled during 2012
タスクデータ Subtopic Mining CsEJ NTCIR-11 IMine タスクデータ Topics and non-diversified baseline DR runs released: Jan, 2014 50 Queries for each language -
Document Ranking CsE
Search Task Mining  NTCIR-11 IMine タスクデータ  Topics released: Mar, 2014  50 Queries for each language 
タスクデータ(システム訓練用) Subtopic Mining CsEJ NTCIR-9/10 INTENT タスクデータ Jan 31, 2014 100 Queries for each language  -
Document Ranking
MATH   文書データ Scientific Articles  E NTCIR-11 Math Retrieval 文書データ (Full dataset) Apr 15, 2014 100,000 docs  2013   
タスクデータ Math Retrieval  E NTCIR-11 Math タスクデータ (Topic) Jun 2, 2014  50 Topics  -
タスクデータ(システム訓練用) Math Retrieval  E NTCIR-11 Math タスクデータ (Initial dataset) Mar 10, 2014 Several Topics
MedNLP    文書データ Health Record J Training data: mednlp2-train_v0.xml Mar 10, 2014 100 documents  2013 
Test data for task 1 (NER): test.xml  July 11, 2014 49 documents 2014
Test data for task 2 (Normalization/Coding) July 25, 2014
MobileClick 文書・クエリー iUnit Retrieval Subtask Information Retrieval E i: NTCIR-11 MobileClick 文書セット (English) Mar, 2014 60 queries 2014
ii: NTCIR-11 MobileClick クエリーセット (English)
iii: NTCIR-11 MobileClick 文書セット (Japanese)
iv: NTCIR-11 MobileClick クエリーセット (Japanese)
文書,クエリー,iUnits  iUnit Summarization Subtask Summarization E i, ii and NTCIR-11 MobileClick iUnit セット (English)
iii, iv and NTCIR-11 MobileClick iUnit セット (Japanese)
RITE-VAL 文書データ Fact Validation  JA J Wikipedia Apr 30, 2014 1.4GB  2011-2012
Textbooks Apr 30, 2014 (for Textbooks1)
July 17, 2014 (for Textbooks 2)
1MB 2011-2012
タスクデータ (システム訓練用) NTCIR-10 RITE2 ExamSearch Task Data JA Apr 30, 2014 1,000 sentences    2011-2013
タスクデータ(評価用) NTCIR-11 RITE-VAL Fact Validation Task Data JA Aug 4July 25, 2014 1,000 sentences  2013-2014
文書データ EN E Wikipedia  Apr 30, 2014 18GB  2011-2012 
タスクデータ (システム訓練用) NTCIR-10 RITE2 ExamSearch Task Data EN Apr 30, 2014 600 sentences   2011-2013
タスクデータ(評価用) NTCIR-11 RITE-VAL Fact Validation Task Data EN Aug 4July 25, 2014 600 sentences  2013-2014
文書データ CS Cs Wikipedia Apr 30, 2014 1GB 2014
タスクデータ (システム訓練用) NTCIR-11 RITE-VAL Fact Validation CS Training data Apr 30, 2014 45KB  2014
タスクデータ(評価用) NTCIR-11 RITE-VAL Fact Validation CS Test data July 25, 2014 2014
文書データ CT Ct Wikipedia Apr 30, 2014 1GB 2014
タスクデータ (システム訓練用) NTCIR-11 RITE-VAL Fact Validation CT Training data  Apr 30, 2014 50KB  2013-2014
タスクデータ(評価用) NTCIR-11 RITE-VAL Fact Validation CT Test data July 25, 2014   2013-2014
タスクデータ (システム訓練用)  System Validation JA  J NTCIR-10 RITE2 BC, MC, ExamBC, UnitTest Task Data JA   Apr 30, 2014 3,788 sentence pairs    2011-2013
タスクデータ(評価用) NTCIR-11 RITE-VAL System Validation Task Data JA  Aug 4July 25, 2014 100,000 sentence pairs    2014
タスクデータ (システム訓練用) CS Cs NTCIR-10 RITE2 BC, MC Task Data CS  Apr 30, 2014 7,594 sentence pairs 2011-2012 
タスクデータ(評価用) NTCIR-11 RITE-VAL System Validation CS Test data  July 25, 2014    2014
タスクデータ (システム訓練用) CT Ct NTCIR-10 RITE2 BC, MC Task Data CT  Apr 30, 2014 7,594 sentence pairs  2011-2012
タスクデータ(評価用) NTCIR-11 RITE-VAL System Validation CT Test data  July 25, 2014   2014 
SpokenQuery&Doc  文書データ Spokenquery&SpokenDocument retrieval documents J NTICR-10 SpokenDoc documents ready to use
114 lectures; total 32 hours (2280 slides) From 2007 To 2013
NTCIR-11 Spokenquery&SpokenDocument retrieval documents Dec, 2013 114 lectures; total 32 hours (2280 slides)
文書データ(システム訓練用) Spokenquery&SpokenDocument retrieval documents  NTICR-10 SpokenDoc documents  ready to use  114 lectures; total 32 hours (2280 slides) From 2007 To 2013 
NTCIR-11 Spokenquery&SpokenDocument retrieval documents  Dec, 2013 114 lectures; total 32 hours (2280 slides)
タスクデータ SQ-SCR subtask& Document retrieval J   After Mar.2014
(during formal -run)
less than 120 topicss
SQ-STD subtask Term retrieval 120 x 3 topics
STD-SCR subtask   Document retrieval less than 120 topicss 
タスクデータ(システム訓練用) SQ-SCR subtask  Document retrieval  J   After Jan.2014
(at dry-run)
-  -
SQ-STD subtask   Term retrieval
STD-SCR subtask   Document retrieval
Pilot     QA Lab タスクデータ   English Subtask E Center Shiken Exam Data (worl history B)*
a. 問題: Center Shiken Exam Data Set 1,2
b. 解答: Center Shiken Exam Data Set 3
*: Japanese Subtask 大学入試二次試験問題データの英語翻訳版
ready to use Topic:
36(2007),41(2003)
 2003,2007
Second-stage University Entrance Exam Data*
a. 問題: Second-stage University Entrance Exam Data Set1
b. 解答:Second-stage University Entrance Exam Data Set2
*: Japanese Subtask 大学入試二次試験問題データの英語翻訳版
ready to use
* To be announced: Second-stage University Entrance Exam Data Set 2 
To be announced   2007
 タスクデータ(システム訓練用)  Center Shiken Exam Data (worl history B)*
a. Sample Questions 
*: Japanese Subtask 大学入試二次試験問題データの英語翻訳版
ready to use  Topic:
40(1997),41(2001),
36(2005),36(2009)
1997,2001,2005,2009
Second-stage University Entrance Exam Data*
a. Sample Questions
*: Japanese Subtask 大学入試二次試験問題データの英語翻訳版
ready to use  To be announced  2005, 2009
文書データ Japanese Subtask J Wikipediaコーパス
a. Wikipediaデータ:Wikipedia Indri indexed Dataset1
b.インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル) : Wikipedia Indri indexed Dataset2,3
ready to use:
Open Access
 1.17GB -
日本語教科書コーパス1(世界史サブセット)
Tokyo Shoseki Textbook Data
a.テキストデータ: Tokyo Shoseki Textbook Data Set0
b.アノテーションデータ: Tokyo Shoseki Textbook Data Set1
c. インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル) : Tokyo Shoseki Textbook Data Set2,3 
ready to use 570KB 2007,2008
日本語教科書コーパス2(世界史サブセット)
Yamakawa Shuppansha Textbook Data
a.テキストデータ: Yamakawa Shuppansha Textbook Data Set0
b.アノテーションデータ: Yamakawa Shuppansha Textbook Data Set1
c. インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル): Yamakawa Shuppansha Textbook Data Set 2,3
ready to use:
* To be announced: Yamakawa Shuppansha Textbook Data Set 0
To be announced  2010
タスクデータ  センター試験問題データ
a. 問題: Center Shiken Exam Data Set 1,2
b. 解答: Center Shiken Exam Data Set 3
ready to use Topic:
36(2007),41(2003)
2003,2007
  大学入試二次試験問題データ
a. 問題: Second-stage University Entrance Exam Data Set1
b. 解答: Second-stage University Entrance Exam Data Set2
ready to use
* To be announced: Second-stage University Entrance Exam Data Set 2
To be announced  2007
タスクデータ(システム訓練用) センター試験問題データ: Sample Questions ready to use  Topic:
40(1997),41(2001),
36(2005),36(2009) 
1997,2001,2005,2009
大学入試二次試験問題データ: Sample Questions ready to use  To be announced  2005,2009
Temporalia    文書データ Web (News) E LivingKnowledge news and blogs annotated subcollection ready to use
**c
ca. 3.8M docs (ca. 20GB) 2011-2013
タスクデータ TQIC Subtask / Classification NTCIR-11 Temporalia タスクデータ May 9, 2014 300 queries 2014
TIR Subtask / Retrieval 50 Topics
タスクデータ(システム訓練用) TQIC Subtask / Classification NTCIR-11 Temporalia タスクデータ Jan 25, 2014 100 queries
TIR Subtask / Retrieval 15 Topics
RecipeSearch 文書データ Cooking Recipe E Yummly Recipe Data**f ready to use **g recipe information for 100,000 recipes( 33,605,459 bytes ) -
Cooking Recipe J Rakuten Recipe **d ready to use **e recipe information for 440,000 recipes (158,321,432 bytes) -
タスクデータ * To be announced soon * E
J
  • **a: 「Sogou labs」から、研究目的利用に限定してデータが提供されます。ライセンス情報については、こちらのページをご覧ください:
    http://www.sogou.com/labs/dl/license_en.html .
  • ** b: 「Carnegie Mellon University」から、研究目的利用に限定してデータが提供されます。利用許諾については、こちらのページをご覧ください:
    http://lemurproject.org/clueweb12/.
  • ** c: 研究目的利用に限定してデータが提供されます。利用許諾については、Temporalia ウェブサイトをご覧ください。
  • ** d: URL: http://rit.rakuten.co.jp/opendata.html .
  • ** e: NIIおよびALAGINから研究目的利用に限定してデータが提供されます。利用許諾については、こちらのページをご覧ください:
    http://rit.rakuten.co.jp/rdr_terms.html.
  • ** f: URL: http://labs.yummly.com/data/ntcir-11-data/ .
  • ** g: Yummlyから研究目的利用に限定してデータが提供されます。利用許諾については、こちらのページをご覧ください:
    http://labs.yummly.com/data/agreement.pdf.
  • 1: タスクデータの詳細につきましては、各タスクのWebページをご覧ください。
  • 2: **のついたデータにつきましては、他のデータと入手方法が異なります。
  • 3: これらの文書データはワークショップの課題遂行および課題に関する研究目的にのみ利用できるものであり、情報を得る目的で利用できるものではありません。

Last Modified: 2014-07-28