NTCIR Project
NTCIR-10 (CrossLink-2)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-10 Cross-lingual Link Discovery(CROSSLINK-2)



NTCIR-10 CrossLinkテストコレクションは、英語文書から中国語・日本語・韓国語文書(CJKウィキペディア)の間で、以下のような言語横断リンクの発見(cross-lingual link discovery)に関する実験に使用することができるCEJKウィキペディアコーパス(CEJK Wikipedia Corpora)です。

CJK to English

English to CJK

各サブタスク用に、25の文書セットを課題データとして配布します。それぞれの課題について、ターゲットコーパスの中にある、期待されるアンカー(anchor)と、それに関する推奨リンクを特定する必要があります。


コレクション 文書データ タスクデータ
文書タイプ 言語 年度 文書数 課題 正解判定
言語 #
NTCIR-10
CrossLink-2

ウィキペディア 記事

中国語

2012

404,620 CEJK テスト用 25 X 4 two set of qrels (from Wikipedia ground-truth and manual assessment) for test-topics
 英語 2012   3,581,772

日本語

2012

858,610
韓国語 2012 297,913

NTCIR-10 Crosslink 文書データ(CEJK Wikipedia Corpora)課題データ(Toppics)は、 Creative Commons Attribution-Share-Alike License 3.0 (Unported) のライセンスに基づき提供されています。

詳細については、こちらのページをご覧ください。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html

文書データ, 検索課題および適合判定

文書データ

NTCIR-10 CrossLink-2 文書データ

NTCIR-10 CrossLink-2 文書データはこちらから利用できます。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html

The documents sets included in the NTCIR-10 CrossLink-2 test collection are formed of search engine friendly xml files created from Wikipedia mysql database dumps taken on 2012. The original article text containing unique Wikipedia mark-ups is converted into XML using the YAWN system [1]. The details of the collections are given in the following Table.

Language # doc Size Dump Date
English 3,581,772 33G 04/01/2012
Chinese  404,620 3.6G  11/01/2012 
Japanese 858,610 9.8G 04/01/2012
Korean 297,913 2.2G 22/01/2012

Tags

Most tags are kept as the same as the tags in original Wikipedia XML dump.
Some important tags are given below:

Mandatory tags

<title>

</title>

The tag for document title

<id>

</id>

The tag "id" of first level is the document identifier

<link>

</link>

The tag for link including general link and language link.
Language link contains special attribute, e.g. "xlink:label="ko"". The language code : zh, ja, ko, en

<timestamp>

</timestamp>

Last update timestamp

<categories>

</categories>

including a list of sub-categories

Other tags

<p>

</p>

Paragraph marker

<sec>

</sec>

Section identifier. An article often includes multiple sections.


<!ELEMENT crosslink-submission (details, description, collections, topic+)>
<!ATTLIST crosslink-submission
participant-id CDATA #REQUIRED
run-id CDATA #REQUIRED
task (A2F) #REQUIRED
source_lang (zh|en|ja|ko) ) #REQUIRED
default_lang (zh|en|ja|ko) ) #REQUIRED
>
<!ELEMENT details (machine, time)>
<!ELEMENT machine (cpu, speed, cores, hyperthreads, memory)>
<!ELEMENT cpu (#PCDATA)>
<!ELEMENT speed (#PCDATA)>
<!ELEMENT cores (#PCDATA)>
<!ELEMENT hyperthreads (#PCDATA)>
<!ELEMENT memory (#PCDATA)>
<!ELEMENT time (#PCDATA)>
<!ELEMENT description (#PCDATA)>
<!ELEMENT collections (collection+)>
<!ELEMENT collection (#PCDATA)>
<!ELEMENT topic (outgoing)>
<!ATTLIST topic
file CDATA #REQUIRED
name CDATA #REQUIRED
>

<!ELEMENT outgoing (anchor+)>

<!ELEMENT anchor (tofile+)>
<!ATTLIST anchor
name CDATA #REQUIRED
offset CDATA #REQUIRED
length CDATA #REQUIRED
>
<!ELEMENT tofile (#PCDATA)>
<!ATTLIST tofile
bep_offset CDATA #REQUIRED
lang (zh|en|ja|ko)#REQUIRED
title CDATA #REQUIRED
>

詳細については、こちらをご覧ください。
http://ntcir.nii.ac.jp/CrossLink-2/Submission/


Gold Standard (qrel, 適合判定データ)の入手方法こちらをご覧ください。

An example Gold Standard
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<ltwResultsetType>
	<ltw_Topic name="Australia" id="4689264"> 
		<outgoingLinks>
			<outLink>131130</outLink>
			<outLink>108627</outLink>
			<outLink>7208</outLink>
			<outLink>292091</outLink>
			<outLink>1247664</outLink>
			<outLink>1213529</outLink>
...
<outLink>457369</outLink> <outLink>479260</outLink> </outgoingLinks> </ltw_Topic> </ltwResultsetType>

The toolkits for assessment and evaluation in the NTCIR-10 CrossLink-2 task are available at:

http://code.google.com/p/crosslink/

 入手方法

NIIから配布するものはいずれも無料です。
参考書類 ---   
お問い合わせ: ntc-secretariat


License


NTCIR-10 CrossLink-2 CEJK Wikipedia Corporaおよび課題データは、Creative Commons Attribution-Share-Alike License 3.0(Unported) のライセンスに基づき、利用および/または再配布が許諾されています。

ライセンスの詳細については、こちらをご覧ください。http://creativecommons.org/licenses/by-sa/3.0/.