[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
The NTCIR-10 RITE-2 Test Collection is intended to evaluate systems that automatically recognize semantic relations (i.e entailment, paraphrase, and contradiction) between sentences.
The test collection includes:
Collection | データセット | サブタスク | タスク データ | Corpus | |||||||||||||
File Type | 言語 | 開発データ | テストデータ (Formal run data) |
||||||||||||||
# of Text Pairs | Tools for linguistic analysis results | added search results | RITE-1 data | # of Text Pairs | Tools for linguistic analysis results | added search results | gold standard (relevance judgment) |
RITE-1 data | |||||||||
NTCIR-10 RITE | RITE2_JA_bc-mc-unittest *(A) |
Japanese BC | xml | Japanese | 611 | 'KNP' | 'MeCab' & CaboCha' | - | task data used in RITE-1**(B) | 610 | 'KNP' | 'MeCab' & 'CaboCha | - | 2-way (Y/N) | task data used in RITE-1 **(B) |
- | |
Japanese MC | 548 | 548 | Four-way (B/C/F/I) | ||||||||||||||
Japanese UnitTest | 272 | 241 | 2-way (Y/N) | ||||||||||||||
RITE2_JA_exam ***(C) |
Japanese Entrance Exam ExamBC | 510 | 'KNP' | 'MeCab' & CaboCha' | - | the Entrance Exam data used in RITE-1 | 448 | 'KNP' | 'MeCab' & 'CaboCha' | - | 2-way (Y/N) | the Entrance Exam data used in RITE-1 | - | ||||
Japanese Entrance Exam ExamSearch | 510 | 'KNP' | 'MeCab' & 'CaboCha' | - | 448 | 'KNP' | 'MeCab' & 'CaboCha' | - | - | ||||||||
- | - | textbook search results | - | - | textbook search results | textbook corpus for the Japanese Entrance Exam subtask | |||||||||||
Wikipedia search results *(A) | Wikipedia search results *(A) | Wikipedia corpus for the Japanese Entrance Exam subtask *(A) | |||||||||||||||
File | Subtask | File Type | Language | # of Text Pairs | - | # of Text Pairs | additional data | - | |||||||||
RITE2_CS | Simplified Chinese BC | xml | Simplified Chiniese | 814 | - | 781 | 1387 | - | |||||||||
Simplified Chinese MC | 814 | 781 | 1387 | ||||||||||||||
Simplified Chinese RITE4QA | - | 2511 | 5256 | ||||||||||||||
RITE2_CT | Traditional Chinese BC | Traditional Chinese | 1321 | 881 | 1894 | ||||||||||||
Traditional Chinese MC | 1321 | 881 | 1894 | ||||||||||||||
Traditional Chinese RITE4QA | - | 2511 | 5256 |
J: 日本語, E: 英語, C: 中国語 (Cs: 簡体字, Ct:繁体字)
RITE2_CS 、RITE2_CT サブタスクのデータは、研究目的でのご利用のためにNIIから配布いたします。ご利用方法はこちらです. | |
*(A) | RITE2_JA_bc-mc-unittest サブタスクのデータ (RITE-1で使用分を除く) と Wikipedia Corpus はCreative
Commons Attribution-Share-Alike License 3.0 (Unported).) ライセンスの元に、提供されています:http://creativecommons.org/licenses/by-sa/3.0/. データはこちらからご利用いただけます. |
**(B) | NTCIR-9 RITE-1 BC, MC and RITE4QA サブタスクで使用したデータです。NTCIR-9 RITEのページをご参照ください (NTCIR-9 RITE). |
***(C) | 大学入試サブタスクのデータ (Wikipedia Corpus と Wikipedia search resultsを除く) は、現在、NTCIR-10 RITE 大学入試サブタスクの参加者のみご利用が可能です。(データの利用許諾に関する交渉中です。ご利用が可能になりましたらご案内申し上げます。) |
README
<dataset>
<pair label="Y" id="1" >
<t1>氷河は発達地域によって、山岳地に形成される山岳氷河と、主に南極大陸とグリーンランドの広大な面積を覆う大陸氷河に分けられる。</t1>
<t2>氷河には、2種類の形態があることが知られている。</t2>
</pair>
<pair label="N" id="2" >
: : :
</dataset>
<dataset>
<pair id="1">
<t1>昇華はフリーズドライの食品や医薬品などを作る際にも利用される。</t1>
<t2>医薬品製造に用いられていたフリーズドライの技術は、食品にも用いられる。</t2>
</pair>
<pair id="2">
: : :
</dataset>
詳細は、NTCIR-10 会議論文集より、NTCIR-10 RITE タスク統括論文をご参照ください。
(1) BC-MC-UNITTEST サブタスクデータ (RITE-1で使用のデータを除く) と JA_Examサブタスクの Wikipedia Corpus
(2) CS, CT サブタスクデータ
テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.
- まず、「テストコレクション利用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
- その後、利用許諾に関する「覚書」をメールで送付しますので、2部、かならず両面印刷で出力し、必要事項を記入し、2部ともに署名および押印をして、以下の送付先 に郵送してください。
NII側の押印後、データの利用許諾を示すものとして1部を利用申込者にお送りし、1部をNIIで保管します。必要書類
- テストコレクション利用申込書
- 覚書 (メールで送付します)
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
参考書類
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。