NTCIR-11 テストコレクション: NTCIR-11 ワークショップ参加者用データセット一覧
タスク | サブタスク | データ | ||||||||||
データ種類 | ジャンル/タスク | 言語 | ファイル名 | 配布予定日 | 文書数/ トピック数 (サイズ) |
年度 | ||||||
core | IMine | 文書データ | Web | Cs | SogouT | ready to use **a |
ca.130M pages (ca. 5TB) |
crawled and released on Nov 2008 | ||||
SogouQ | ready to use **a |
About 4GB | collected in 2008/2011 |
|||||||||
E | ClueWeb12-B3 | ready to use **b |
crawled during 2012 | |||||||||
タスクデータ | Subtopic Mining | CsEJ | NTCIR-11 IMine タスクデータ | Topics and non-diversified baseline DR runs released: Jan, 2014 | 50 Queries for each language | - | ||||||
Document Ranking | CsE | |||||||||||
Search Task Mining | J | NTCIR-11 IMine タスクデータ | Topics released: Mar, 2014 | 50 Queries for each language | - | |||||||
タスクデータ(システム訓練用) | Subtopic Mining | CsEJ | NTCIR-9/10 INTENT タスクデータ | Jan 31, 2014 | 100 Queries for each language | - | ||||||
Document Ranking | ||||||||||||
MATH | 文書データ | Scientific Articles | E | NTCIR-11 Math Retrieval 文書データ (Full dataset) | Apr 15, 2014 | 100,000 docs | 2013 | |||||
タスクデータ | Math Retrieval | E | NTCIR-11 Math タスクデータ (Topic) | Jun 2, 2014 | 50 Topics | - | ||||||
タスクデータ(システム訓練用) | Math Retrieval | E | NTCIR-11 Math タスクデータ (Initial dataset) | Mar 10, 2014 | Several Topics | |||||||
MedNLP | 文書データ | Health Record | J | Training data: mednlp2-train_v0.xml | Mar 10, 2014 | 100 documents | 2013 | |||||
Test data for task 1 (NER): test.xml | July 11, 2014 | 49 documents | 2014 | |||||||||
Test data for task 2 (Normalization/Coding) | July 25, 2014 | |||||||||||
MobileClick | 文書・クエリー | iUnit Retrieval Subtask | Information Retrieval | E | i: NTCIR-11 MobileClick 文書セット (English) | Mar, 2014 | 60 queries | 2014 | ||||
ii: NTCIR-11 MobileClick クエリーセット (English) | ||||||||||||
J | iii: NTCIR-11 MobileClick 文書セット (Japanese) | |||||||||||
iv: NTCIR-11 MobileClick クエリーセット (Japanese) | ||||||||||||
文書,クエリー,iUnits | iUnit Summarization Subtask | Summarization | E | i, ii and NTCIR-11 MobileClick iUnit セット (English) | ||||||||
J | iii, iv and NTCIR-11 MobileClick iUnit セット (Japanese) | |||||||||||
RITE-VAL | 文書データ | Fact Validation | JA | J | Wikipedia | Apr 30, 2014 | 1.4GB | 2011-2012 | ||||
Textbooks | Apr 30, 2014 (for Textbooks1) July 17, 2014 (for Textbooks 2) |
1MB | 2011-2012 | |||||||||
タスクデータ (システム訓練用) | NTCIR-10 RITE2 ExamSearch Task Data JA | Apr 30, 2014 | 1,000 sentences | 2011-2013 | ||||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL Fact Validation Task Data JA | Aug 4 |
1,000 sentences | 2013-2014 | ||||||||
文書データ | EN | E | Wikipedia | Apr 30, 2014 | 18GB | 2011-2012 | ||||||
タスクデータ (システム訓練用) | NTCIR-10 RITE2 ExamSearch Task Data EN | Apr 30, 2014 | 600 sentences | 2011-2013 | ||||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL Fact Validation Task Data EN | Aug 4 |
600 sentences | 2013-2014 | ||||||||
文書データ | CS | Cs | Wikipedia | Apr 30, 2014 | 1GB | 2014 | ||||||
タスクデータ (システム訓練用) | NTCIR-11 RITE-VAL Fact Validation CS Training data | Apr 30, 2014 | 45KB | 2014 | ||||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL Fact Validation CS Test data | July 25, 2014 | 2014 | |||||||||
文書データ | CT | Ct | Wikipedia | Apr 30, 2014 | 1GB | 2014 | ||||||
タスクデータ (システム訓練用) | NTCIR-11 RITE-VAL Fact Validation CT Training data | Apr 30, 2014 | 50KB | 2013-2014 | ||||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL Fact Validation CT Test data | July 25, 2014 | 2013-2014 | |||||||||
タスクデータ (システム訓練用) | System Validation | JA | J | NTCIR-10 RITE2 BC, MC, ExamBC, UnitTest Task Data JA | Apr 30, 2014 | 3,788 sentence pairs | 2011-2013 | |||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL System Validation Task Data JA | Aug 4 |
100,000 sentence pairs | 2014 | ||||||||
タスクデータ (システム訓練用) | CS | Cs | NTCIR-10 RITE2 BC, MC Task Data CS | Apr 30, 2014 | 2011-2012 | |||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL System Validation CS Test data | July 25, 2014 | 2014 | |||||||||
タスクデータ (システム訓練用) | CT | Ct | NTCIR-10 RITE2 BC, MC Task Data CT | Apr 30, 2014 | 2011-2012 | |||||||
タスクデータ(評価用) | NTCIR-11 RITE-VAL System Validation CT Test data | July 25, 2014 | 2014 | |||||||||
SpokenQuery&Doc | 文書データ | Spokenquery&SpokenDocument retrieval documents | J | NTICR-10 SpokenDoc documents | ready to use |
114 lectures; total 32 hours (2280 slides) | From 2007 To 2013 | |||||
NTCIR-11 Spokenquery&SpokenDocument retrieval documents | Dec, 2013 | 114 lectures; total 32 hours (2280 slides) | ||||||||||
文書データ(システム訓練用) | Spokenquery&SpokenDocument retrieval documents | NTICR-10 SpokenDoc documents | ready to use | 114 lectures; total 32 hours (2280 slides) | From 2007 To 2013 | |||||||
NTCIR-11 Spokenquery&SpokenDocument retrieval documents | Dec, 2013 | 114 lectures; total 32 hours (2280 slides) | ||||||||||
タスクデータ | SQ-SCR subtask& | Document retrieval | J | After Mar.2014 (during formal -run) |
less than 120 topicss | - | ||||||
SQ-STD subtask | Term retrieval | 120 x 3 topics | ||||||||||
STD-SCR subtask | Document retrieval | less than 120 topicss | ||||||||||
タスクデータ(システム訓練用) | SQ-SCR subtask | Document retrieval | J | After Jan.2014 (at dry-run) |
- | - | ||||||
SQ-STD subtask | Term retrieval | |||||||||||
STD-SCR subtask | Document retrieval | |||||||||||
Pilot | QA Lab | タスクデータ | English Subtask | E | Center Shiken Exam Data (worl history B)* a. 問題: Center Shiken Exam Data Set 1,2 b. 解答: Center Shiken Exam Data Set 3 *: Japanese Subtask 大学入試二次試験問題データの英語翻訳版 |
ready to use | Topic: 36(2007),41(2003) |
2003,2007 | ||||
Second-stage University Entrance Exam Data* a. 問題: Second-stage University Entrance Exam Data Set1 b. 解答:Second-stage University Entrance Exam Data Set2 *: Japanese Subtask 大学入試二次試験問題データの英語翻訳版 |
ready to use * To be announced: Second-stage University Entrance Exam Data Set 2 |
To be announced | 2007 | |||||||||
タスクデータ(システム訓練用) | Center Shiken Exam Data (worl history B)* a. Sample Questions *: Japanese Subtask 大学入試二次試験問題データの英語翻訳版 |
ready to use | Topic: 40(1997),41(2001), 36(2005),36(2009) |
1997,2001,2005,2009 | ||||||||
Second-stage University Entrance Exam Data* a. Sample Questions *: Japanese Subtask 大学入試二次試験問題データの英語翻訳版 |
ready to use | To be announced | 2005, 2009 | |||||||||
文書データ | Japanese Subtask | J | Wikipediaコーパス a. Wikipediaデータ:Wikipedia Indri indexed Dataset1 b.インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル) : Wikipedia Indri indexed Dataset2,3 |
ready to use: Open Access |
1.17GB | - | ||||||
日本語教科書コーパス1(世界史サブセット) Tokyo Shoseki Textbook Data a.テキストデータ: Tokyo Shoseki Textbook Data Set0 b.アノテーションデータ: Tokyo Shoseki Textbook Data Set1 c. インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル) : Tokyo Shoseki Textbook Data Set2,3 |
ready to use | 570KB | 2007,2008 | |||||||||
日本語教科書コーパス2(世界史サブセット) Yamakawa Shuppansha Textbook Data a.テキストデータ: Yamakawa Shuppansha Textbook Data Set0 b.アノテーションデータ: Yamakawa Shuppansha Textbook Data Set1 c. インデックスデータ(trectextフォーマット変換スクリプト、インデックスファイル): Yamakawa Shuppansha Textbook Data Set 2,3 |
ready to use: * To be announced: Yamakawa Shuppansha Textbook Data Set 0 |
To be announced | 2010 | |||||||||
タスクデータ | センター試験問題データ a. 問題: Center Shiken Exam Data Set 1,2 b. 解答: Center Shiken Exam Data Set 3 |
ready to use | Topic: 36(2007),41(2003) |
2003,2007 | ||||||||
大学入試二次試験問題データ a. 問題: Second-stage University Entrance Exam Data Set1 b. 解答: Second-stage University Entrance Exam Data Set2 |
ready to use * To be announced: Second-stage University Entrance Exam Data Set 2 |
To be announced | 2007 | |||||||||
タスクデータ(システム訓練用) | センター試験問題データ: Sample Questions | ready to use | Topic: 40(1997),41(2001), 36(2005),36(2009) |
1997,2001,2005,2009 | ||||||||
大学入試二次試験問題データ: Sample Questions | ready to use | To be announced | 2005,2009 | |||||||||
Temporalia | 文書データ | Web (News) | E | LivingKnowledge news and blogs annotated subcollection | ready to use **c |
ca. 3.8M docs (ca. 20GB) | 2011-2013 | |||||
タスクデータ | TQIC Subtask / Classification | NTCIR-11 Temporalia タスクデータ | May 9, 2014 | 300 queries | 2014 | |||||||
TIR Subtask / Retrieval | 50 Topics | |||||||||||
タスクデータ(システム訓練用) | TQIC Subtask / Classification | NTCIR-11 Temporalia タスクデータ | Jan 25, 2014 | 100 queries | ||||||||
TIR Subtask / Retrieval | 15 Topics | |||||||||||
RecipeSearch | 文書データ | Cooking Recipe | E | Yummly Recipe Data**f | ready to use **g | recipe information for 100,000 recipes( 33,605,459 bytes ) | - | |||||
Cooking Recipe | J | Rakuten Recipe **d | ready to use **e | recipe information for 440,000 recipes (158,321,432 bytes) | - | |||||||
タスクデータ | * To be announced soon * | E | ||||||||||
J |
Last Modified: 2014-07-28