NTCIR Project
NTCIR-10 RITE
(Recognizing Inference in TExt)
データ利用手続き(研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-10 RITE (Recognizing Inference in TExt)



The NTCIR-10 RITE-2 Test Collection is intended to evaluate systems that automatically recognize semantic relations (i.e entailment, paraphrase, and contradiction) between sentences.
The test collection includes:


Collection   データセット サブタスク タスク データ   Corpus   
File Type 言語 開発データ テストデータ
(Formal run data)  
# of Text Pairs Tools for linguistic analysis results added search results RITE-1 data  # of Text Pairs Tools for linguistic analysis results added search results  gold standard
(relevance judgment)
RITE-1 data 
NTCIR-10 RITE RITE2_JA_bc-mc-unittest
*(A)
Japanese BC xml  Japanese  611 'KNP' 'MeCab' & CaboCha'  -  task data used in RITE-1**(B) 610 'KNP' 'MeCab' & 'CaboCha  2-way (Y/N)  task data used in RITE-1
**(B)
Japanese MC 548 548 Four-way (B/C/F/I)
Japanese UnitTest 272 241 2-way (Y/N)
RITE2_JA_exam
***(C)
Japanese Entrance Exam ExamBC 510  'KNP' 'MeCab' & CaboCha' - the Entrance Exam data used in RITE-1  448 'KNP' 'MeCab' & 'CaboCha'  -  2-way (Y/N)    the Entrance Exam data used in RITE-1
Japanese Entrance Exam ExamSearch  510   'KNP' 'MeCab' & 'CaboCha' - 448 'KNP' 'MeCab' & 'CaboCha' -  -
 - textbook search results    - textbook search results   textbook corpus for the Japanese Entrance Exam subtask
Wikipedia search results *(A) Wikipedia search results *(A) Wikipedia corpus for the Japanese Entrance Exam subtask *(A) 
File  Subtask  File Type Language  # of Text Pairs - # of Text Pairs additional data -
RITE2_CS Simplified Chinese BC xml Simplified Chiniese 814 - 781 1387 -             
Simplified Chinese MC 814 781 1387
Simplified Chinese RITE4QA - 2511 5256
RITE2_CT Traditional Chinese BC Traditional Chinese  1321 881 1894
Traditional Chinese MC 1321 881 1894
Traditional Chinese RITE4QA - 2511 5256

J: 日本語, E: 英語, C: 中国語 (Cs: 簡体字, Ct:繁体字)


RITE2_CS 、RITE2_CT サブタスクのデータは、研究目的でのご利用のためにNIIから配布いたします。ご利用方法はこちらです.
*(A) RITE2_JA_bc-mc-unittest サブタスクのデータ (RITE-1で使用分を除く) と Wikipedia Corpus はCreative Commons Attribution-Share-Alike License 3.0 (Unported).) ライセンスの元に、提供されています:http://creativecommons.org/licenses/by-sa/3.0/.

データはこちらからご利用いただけます.
**(B) NTCIR-9 RITE-1 BC, MC and RITE4QA サブタスクで使用したデータです。NTCIR-9 RITEのページをご参照ください (NTCIR-9 RITE).
***(C) 大学入試サブタスクのデータ (Wikipedia Corpus と Wikipedia search resultsを除く) は、現在、NTCIR-10 RITE 大学入試サブタスクの参加者のみご利用が可能です。(データの利用許諾に関する交渉中です。ご利用が可能になりましたらご案内申し上げます。)

README

Format

Dev/Test Gold Standard Data Format
<dataset>
  <pair label="Y" id="1" >
    <t1>氷河は発達地域によって、山岳地に形成される山岳氷河と、主に南極大陸とグリーンランドの広大な面積を覆う大陸氷河に分けられる。</t1>
    <t2>氷河には、2種類の形態があることが知られている。</t2>
  </pair>
  <pair label="N" id="2" >
  : : : 
</dataset>

Test Data Format
<dataset>
  <pair id="1">
    <t1>昇華はフリーズドライの食品や医薬品などを作る際にも利用される。</t1>
    <t2>医薬品製造に用いられていたフリーズドライの技術は、食品にも用いられる。</t2>
  </pair>
  <pair id="2">
  : : : 
</dataset>

詳細は、NTCIR-10 会議論文集より、NTCIR-10 RITE タスク統括論文をご参照ください。


入手方法

(1) BC-MC-UNITTEST サブタスクデータ (RITE-1で使用のデータを除く) と JA_Examサブタスクの Wikipedia Corpus


(2) CS, CT サブタスクデータ

テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.

必要書類

「覚書」送付先 ---

101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751


参考書類


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。


[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]
Updated on : 2014-06-16
ntc-admin