[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-10 CrossLinkテストコレクションは、英語文書から中国語・日本語・韓国語文書(CJKウィキペディア)の間で、以下のような言語横断リンクの発見(cross-lingual link discovery)に関する実験に使用することができるCEJKウィキペディアコーパス(CEJK Wikipedia Corpora)です。
CJK to English
English to CJK
各サブタスク用に、25の文書セットを課題データとして配布します。それぞれの課題について、ターゲットコーパスの中にある、期待されるアンカー(anchor)と、それに関する推奨リンクを特定する必要があります。
コレクション | 文書データ | タスクデータ | ||||||
文書タイプ | 言語 | 年度 | 文書数 | 課題 | 正解判定 | |||
言語 | # | |||||||
NTCIR-10 CrossLink-2 |
ウィキペディア 記事 |
中国語 |
2012 |
404,620 | CEJK | テスト用 | 25 X 4 | two set of qrels (from Wikipedia ground-truth and manual assessment) for test-topics |
英語 | 2012 | 3,581,772 | ||||||
日本語 |
2012 |
858,610 | ||||||
韓国語 | 2012 | 297,913 |
NTCIR-10 Crosslink 文書データ(CEJK Wikipedia Corpora)と課題データ(Toppics)は、 Creative Commons Attribution-Share-Alike License 3.0 (Unported) のライセンスに基づき提供されています。
詳細については、こちらのページをご覧ください。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html
NTCIR-10 CrossLink-2 文書データはこちらから利用できます。
http://warehouse.ntcir.nii.ac.jp/openaccess/crosslink/10crosslink_documents.html
The documents sets included in the NTCIR-10 CrossLink-2 test collection are formed of search engine friendly xml files created from Wikipedia mysql database dumps taken on 2012. The original article text containing unique Wikipedia mark-ups is converted into XML using the YAWN system [1]. The details of the collections are given in the following Table.
Language | # doc | Size | Dump Date |
English | 3,581,772 | 33G | 04/01/2012 |
Chinese | 404,620 | 3.6G | 11/01/2012 |
Japanese | 858,610 | 9.8G | 04/01/2012 |
Korean | 297,913 | 2.2G | 22/01/2012 |
Most tags are kept as the same as the tags in original Wikipedia XML dump.
Some important tags are given below:
Mandatory tags |
||
<title> |
</title> |
The tag for document title |
<id> |
</id> |
The tag "id" of first level is the document identifier |
<link> |
</link> |
The tag for link including general
link and language link. |
<timestamp> |
</timestamp> |
Last update timestamp |
<categories> |
</categories> |
including a list of sub-categories |
Other tags |
||
<p> |
</p> |
Paragraph marker |
<sec> |
</sec> |
Section identifier. An article often includes multiple sections. |
<!ELEMENT crosslink-submission (details, description, collections, topic+)>
<!ATTLIST crosslink-submission
participant-id CDATA #REQUIRED
run-id CDATA #REQUIRED
task (A2F) #REQUIRED
source_lang (zh|en|ja|ko) ) #REQUIRED
default_lang (zh|en|ja|ko) ) #REQUIRED
>
<!ELEMENT details (machine, time)>
<!ELEMENT machine (cpu, speed, cores, hyperthreads, memory)>
<!ELEMENT cpu (#PCDATA)>
<!ELEMENT speed (#PCDATA)>
<!ELEMENT cores (#PCDATA)>
<!ELEMENT hyperthreads (#PCDATA)>
<!ELEMENT memory (#PCDATA)>
<!ELEMENT time (#PCDATA)>
<!ELEMENT description (#PCDATA)>
<!ELEMENT collections (collection+)>
<!ELEMENT collection (#PCDATA)>
<!ELEMENT topic (outgoing)>
<!ATTLIST topic
file CDATA #REQUIRED
name CDATA #REQUIRED
>
<!ELEMENT outgoing (anchor+)>
<!ELEMENT anchor (tofile+)>
<!ATTLIST anchor
name CDATA #REQUIRED
offset CDATA #REQUIRED
length CDATA #REQUIRED
>
<!ELEMENT tofile (#PCDATA)>
<!ATTLIST tofile
bep_offset CDATA #REQUIRED
lang (zh|en|ja|ko)#REQUIRED
title CDATA #REQUIRED
>
詳細については、こちらをご覧ください。
http://ntcir.nii.ac.jp/CrossLink-2/Submission/
Gold Standard (qrel, 適合判定データ)の入手方法はこちらをご覧ください。
An example Gold Standard<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <ltwResultsetType> <ltw_Topic name="Australia" id="4689264"> <outgoingLinks> <outLink>131130</outLink> <outLink>108627</outLink> <outLink>7208</outLink> <outLink>292091</outLink> <outLink>1247664</outLink> <outLink>1213529</outLink>
...
<outLink>457369</outLink> <outLink>479260</outLink> </outgoingLinks> </ltw_Topic> </ltwResultsetType>
The toolkits for assessment and evaluation in the NTCIR-10 CrossLink-2 task are available at:
http://code.google.com/p/crosslink/
NIIから配布するものはいずれも無料です。
参考書類 ---
- NTCIR-10 CrossLink の Gold Standard (qrel, 適合判定データ)及び 課題データは、NIIのIDRからダウンロードできます:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
備考: 上記はNTCIR-9 CrossLinkのタスクデータを含むデータセットパッケージです。NTCIR-10のデータは、'crosslink2'という名前のフォルダ内に含まれています。
- Schenkel, R., F. Suchanek, and G. Kasneci, "YAWN: A Semantically Annotated Wikipedia XML Corpus." In Proceedings of BTW'2007, 2007.
- NTCIR-10 Crosslink タスク統括論文
Tang, L.-X., I.-S. Kang, F. Kimura, Y.-H. Lee, A. Trotman, S. Geva, et al (2013)., "Overview of the NTCIR-10 Cross-Lingual Link Discovery Task," in Proceedings of NTCIR-10, Tokyo, Japan.
[poster] [paper PDF]- NTCIR-9 Crosslink タスク統括論文
Tang, L.-X., Geva, S., Trotman, A., Xu, Y., & Itakura, K. Y. (2011). Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery. Proceedings of NTCIR-10 (pp. 437-463). Tokyo, Japan.
[poster] [paper PDF]- NTCIR-10 CrossLink-2 Task website
- Crosslink Toolkits
- 適合判定データ(Gold Standard, qrels)の使用について
[利用規程 PDF]
お問い合わせ: ntc-secretariat
License
NTCIR-10 CrossLink-2 CEJK Wikipedia Corporaおよび課題データは、Creative Commons Attribution-Share-Alike License 3.0(Unported) のライセンスに基づき、利用および/または再配布が許諾されています。
ライセンスの詳細については、こちらをご覧ください。http://creativecommons.org/licenses/by-sa/3.0/.