NTCIR Project
NTCIR-10 （CrossLink-2）
データ利用手続き（研究目的用）

NTCIR-10 Cross-lingual Link Discovery（CROSSLINK-2）

NTCIR-10 CrossLinkテストコレクションは、英語文書から中国語・日本語・韓国語文書（CJKウィキペディア)の間で、以下のような言語横断リンクの発見（cross-lingual link discovery）に関する実験に使用することができるCEJKウィキペディアコーパス(CEJK Wikipedia Corpora)です。

CJK to English

中国語から英語への言語横断リンクの発見 (C2E) サブタスク
日本語から英語への言語横断リンクの発見 (J2E) サブタスク
韓国語から英語への言語横断リンクの発見 (K2E) サブタスク

English to CJK

英語から中国語への言語横断リンクの発見 (E2C) サブタスク
英語から日本語への言語横断リンクの発見 (E2J) サブタスク
英語から韓国語への言語横断リンクの発見 (E2K) サブタスク

各サブタスク用に、25の文書セットを課題データとして配布します。それぞれの課題について、ターゲットコーパスの中にある、期待されるアンカー（anchor)と、それに関する推奨リンクを特定する必要があります。

コレクション	文書データ				タスクデータ
	文書タイプ	言語	年度	文書数	課題			正解判定
					言語	#
NTCIR-10 CrossLink-2	ウィキペディア記事	中国語	2012	404,620	CEJK	テスト用	25 X 4	two set of qrels (from Wikipedia ground-truth and manual assessment) for test-topics
		英語	2012	3,581,772
		日本語	2012	858,610
		韓国語	2012	297,913

NTCIR-10 Crosslink 文書データ（CEJK Wikipedia Corpora）と課題データ(Toppics)は、 Creative Commons Attribution-Share-Alike License 3.0 (Unported)　のライセンスに基づき提供されています。

詳細については、こちらのページをご覧ください。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html

NTCIR-10 CrossLink-2 文書データ

NTCIR-10 CrossLink-2 文書データはこちらから利用できます。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html

The documents sets included in the NTCIR-10 CrossLink-2 test collection are formed of search engine friendly xml files created from Wikipedia mysql database dumps taken on 2012. The original article text containing unique Wikipedia mark-ups is converted into XML using the YAWN system [1]. The details of the collections are given in the following Table.

Language	# doc	Size	Dump Date
English	3,581,772	33G	04/01/2012
Chinese	404,620	3.6G	11/01/2012
Japanese	858,610	9.8G	04/01/2012
Korean	297,913	2.2G	22/01/2012

Tags

Most tags are kept as the same as the tags in original Wikipedia XML dump.
Some important tags are given below:

Mandatory tags
<title>	</title>	The tag for document title
<id>	</id>	The tag "id" of first level is the document identifier
<link>	</link>	The tag for link including general link and language link. Language link contains special attribute, e.g. "xlink:label="ko"". The language code : zh, ja, ko, en
<timestamp>	</timestamp>	Last update timestamp
<categories>	</categories>	including a list of sub-categories
Other tags
<p>	</p>	Paragraph marker
<sec>	</sec>	Section identifier. An article often includes multiple sections.

訓練用およびテスト用課題データ (Topics)は下記リンクからご利用できます。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html

全課題データをまとめてダウンロードできます。こちらをご覧ください。

テスト用課題データ (Test Topics)：
25 articles in CECJK languages on various topics are chosen and used as formal test topics.

Submission XML File DTD


<!ELEMENT crosslink-submission (details, description, collections, topic+)>
<!ATTLIST crosslink-submission
   participant-id CDATA #REQUIRED
   run-id CDATA #REQUIRED
   task (A2F) #REQUIRED
   source_lang (zh|en|ja|ko) ) #REQUIRED
   default_lang (zh|en|ja|ko) ) #REQUIRED
>
<!ELEMENT details (machine, time)>
<!ELEMENT machine (cpu, speed, cores, hyperthreads, memory)>
<!ELEMENT cpu (#PCDATA)>
<!ELEMENT speed (#PCDATA)>
<!ELEMENT cores (#PCDATA)>
<!ELEMENT hyperthreads (#PCDATA)>
<!ELEMENT memory (#PCDATA)>
<!ELEMENT time (#PCDATA)>
<!ELEMENT description (#PCDATA)>
<!ELEMENT collections (collection+)>
<!ELEMENT collection (#PCDATA)>
<!ELEMENT topic (outgoing)>
<!ATTLIST topic
   file CDATA #REQUIRED
   name CDATA #REQUIRED
>

<!ELEMENT outgoing (anchor+)>

<!ELEMENT anchor (tofile+)>
<!ATTLIST anchor
   name CDATA #REQUIRED
   offset CDATA #REQUIRED
   length CDATA #REQUIRED
>
<!ELEMENT tofile (#PCDATA)>
<!ATTLIST tofile
   bep_offset CDATA #REQUIRED
   lang (zh|en|ja|ko)#REQUIRED
   title CDATA #REQUIRED
>

詳細については、こちらをご覧ください。
http://ntcir.nii.ac.jp/CrossLink-2/Submission/

Gold Standard (qrel, 適合判定データ）

Gold Standard (qrel, 適合判定データ）の入手方法はこちらをご覧ください。

An example Gold Standard

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<ltwResultsetType>
	<ltw_Topic name="Australia" id="4689264"> 
		<outgoingLinks>
			<outLink>131130</outLink>
			<outLink>108627</outLink>
			<outLink>7208</outLink>
			<outLink>292091</outLink>
			<outLink>1247664</outLink>
			<outLink>1213529</outLink>
                        ...
			<outLink>457369</outLink>
			<outLink>479260</outLink>
		</outgoingLinks>
	</ltw_Topic>
</ltwResultsetType>

Tools

The toolkits for assessment and evaluation in the NTCIR-10 CrossLink-2 task are available at:

http://code.google.com/p/crosslink/

NIIから配布するものはいずれも無料です。

NTCIR-10 CrossLink の Gold Standard (qrel, 適合判定データ）及び課題データは、NIIのIDRからダウンロードできます：
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html

備考：上記はNTCIR-9 CrossLinkのタスクデータを含むデータセットパッケージです。NTCIR-10のデータは、'crosslink2'という名前のフォルダ内に含まれています。

参考書類　---

Schenkel, R., F. Suchanek, and G. Kasneci, "YAWN: A Semantically Annotated Wikipedia XML Corpus." In Proceedings of BTW'2007, 2007.
NTCIR-10 Crosslink タスク統括論文
Tang, L.-X., I.-S. Kang, F. Kimura, Y.-H. Lee, A. Trotman, S. Geva, et al (2013)., "Overview of the NTCIR-10 Cross-Lingual Link Discovery Task," in Proceedings of NTCIR-10, Tokyo, Japan.
[poster] [paper PDF]
NTCIR-9 Crosslink タスク統括論文
Tang, L.-X., Geva, S., Trotman, A., Xu, Y., & Itakura, K. Y. (2011). Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery. Proceedings of NTCIR-10 (pp. 437-463). Tokyo, Japan.
[poster] [paper PDF]
NTCIR-10 CrossLink-2 Task website
Crosslink Toolkits
適合判定データ（Gold Standard, qrels)の使用について
[利用規程 PDF]

お問い合わせ： ntc-secretariat

License

NTCIR-10 CrossLink-2 CEJK Wikipedia Corporaおよび課題データは、Creative Commons Attribution-Share-Alike License 3.0(Unported)　のライセンスに基づき、利用および/または再配布が許諾されています。

ライセンスの詳細については、こちらをご覧ください。http://creativecommons.org/licenses/by-sa/3.0/.

[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]
Updated on : 2013-09-12
ntc-admin

NTCIR Project NTCIR-10 （CrossLink-2） データ利用手続き （研究目的用）

NTCIR-10 Cross-lingual Link Discovery（CROSSLINK-2）

NTCIR-10 CrossLink-2 文書データ

Tags

NTCIR Project
NTCIR-10 （CrossLink-2）
データ利用手続き（研究目的用）