NTCIR Project
NTCIR-10 RITE
(Recognizing Inference in TExt)
データ利用手続き（研究目的用）

NTCIR-10 RITE (Recognizing Inference in TExt)

The NTCIR-10 RITE-2 Test Collection is intended to evaluate systems that automatically recognize semantic relations (i.e entailment, paraphrase, and contradiction) between sentences.
The test collection includes:

(1) RITE2_JA_bc-mc-unittest: The Development data and the formal run data for Japanese BC, MC and UnitTest subtasks
(2) RITE2_JA_exam: The Development data and the formal run data for Japanese Entrance Exam subtasks (ExamBC and ExamSearch)
(3) RITE2_CS: The Development data and the formal run data for Simplified Chinese BC, MC and RITE4QA subtasks
(4) RITE2_CT: The Development data and the formal run data for Traditional Chinese BC, MC and RITE4QA subtasks

Collection

データセット

サブタスク

タスクデータ

Corpus

File Type

言語

開発データ

テストデータ
(Formal run data)

# of Text Pairs

Tools for linguistic analysis results

added search results

RITE-1 data

# of Text Pairs

Tools for linguistic analysis results

added search results

gold standard
(relevance judgment)

RITE-1 data

NTCIR-10 RITE

RITE2_JA_bc-mc-unittest
*(A)

Japanese BC

xml

Japanese

611

'KNP'

'MeCab' & CaboCha'

task data used in RITE-1**(B)

610

'KNP'

'MeCab' & 'CaboCha

2-way (Y/N)

task data used in RITE-1
**(B)

Japanese MC

548

Four-way （B/C/F/I)

Japanese UnitTest

272

241

2-way (Y/N)

RITE2_JA_exam
***(C)

Japanese Entrance Exam ExamBC

510

'KNP'

'MeCab' & CaboCha'

the Entrance Exam data used in RITE-1

448

'KNP'

'MeCab' & 'CaboCha'

2-way (Y/N)

the Entrance Exam data used in RITE-1

Japanese Entrance Exam ExamSearch

510

'KNP'

'MeCab' & 'CaboCha'

448

'KNP'

'MeCab' & 'CaboCha'

textbook search results

textbook corpus for the Japanese Entrance Exam subtask

Wikipedia search results *(A)

Wikipedia corpus for the Japanese Entrance Exam subtask *(A)

File

Subtask

File Type

Language

# of Text Pairs

additional data

RITE2_CS

Simplified Chinese BC

xml

Simplified Chiniese

814

781

1387

Simplified Chinese MC

814

781

1387

Simplified Chinese RITE4QA

2511

5256

RITE2_CT

Traditional Chinese BC

Traditional Chinese

1321

881

1894

Traditional Chinese MC

1321

881

1894

Traditional Chinese RITE4QA

2511

5256

J: 日本語, E: 英語, C: 中国語 (Cs: 簡体字, Ct:繁体字)

	RITE2_CS 、RITE2_CT サブタスクのデータは、研究目的でのご利用のためにNIIから配布いたします。ご利用方法はこちらです.
*(A)	RITE2_JA_bc-mc-unittest サブタスクのデータ (RITE-1で使用分を除く) と Wikipedia Corpus はCreative Commons Attribution-Share-Alike License 3.0 (Unported).) ライセンスの元に、提供されています：http://creativecommons.org/licenses/by-sa/3.0/. データはこちらからご利用いただけます.
**(B)	NTCIR-9　RITE-1 BC, MC and RITE4QA サブタスクで使用したデータです。NTCIR-9 RITEのページをご参照ください (NTCIR-9 RITE).
***(C)	大学入試サブタスクのデータ (Wikipedia Corpus と Wikipedia search resultsを除く) は、現在、NTCIR-10 RITE 大学入試サブタスクの参加者のみご利用が可能です。（データの利用許諾に関する交渉中です。ご利用が可能になりましたらご案内申し上げます。）

README

description-available-data [PDF]

Format

Dev/Test Gold Standard Data Format

<dataset>
  <pair label="Y" id="1" >
    <t1>氷河は発達地域によって、山岳地に形成される山岳氷河と、主に南極大陸とグリーンランドの広大な面積を覆う大陸氷河に分けられる。</t1>
    <t2>氷河には、2種類の形態があることが知られている。</t2>
  </pair>
  <pair label="N" id="2" >
  : : : 
</dataset>

Test Data Format

<dataset>
  <pair id="1">
    <t1>昇華はフリーズドライの食品や医薬品などを作る際にも利用される。</t1>
    <t2>医薬品製造に用いられていたフリーズドライの技術は、食品にも用いられる。</t2>
  </pair>
  <pair id="2">
  : : : 
</dataset>

詳細は、NTCIR-10 会議論文集より、NTCIR-10 RITE タスク統括論文をご参照ください。

NTCIR-10 Recognizing Inference in Text タスク統括論文:
Overview of the NTCIR-10 Recognizing Inference in Text (RITE-2) at NTCIR [PDF]

(1) BC-MC-UNITTEST サブタスクデータ (RITE-1で使用のデータを除く) と JA_Examサブタスクの Wikipedia Corpus

以下のページからご利用いただけます：
http://warehouse.ntcir.nii.ac.jp/openaccess/rite/10RITE-Japanese-wiki.html
RITE-1で使用したデータに関してはこちらをご参照ください：NTCIR-9 RITE 。

(2) CS, CT サブタスクデータ

文書データの入手方法はこちら：
https://research.nii.ac.jp/ntcir/permission/perm-ja-DocumentData.html

必要書類

テストコレクション利用申込書

覚書（メールで送付します）　

参考書類

利用規程 [PDF]
NTCIR-10 RITE タスクウェブサイト

NTCIR-10 RITE タスク統括論文: Overview of the NTCIR-10 Recognizing Inference in Text (RITE-2) at NTCIR [PDF]

NTCIR-10 会議論文集: RITE

ツール
お問い合わせ： idr-ntcir

注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。

[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]

Updated on : 2014-06-16

ntc-admin

NTCIR Project NTCIR-10 RITE (Recognizing Inference in TExt) データ利用手続き（研究目的用）

NTCIR-10 RITE (Recognizing Inference in TExt)

Format

NTCIR Project
NTCIR-10 RITE
(Recognizing Inference in TExt)
データ利用手続き（研究目的用）