NTCIR Project
NTCIR-11 Temporalia
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-11 Temporalia (時間的情報アクセス研究)



「NTCIR-11 Temporal Information Access (Temporalia)」は,時間的情報アクセス研究を発展するためのタスクです.文書の適合性を推定するときに「時間」という要因が重要な役割を果たしているという事実を踏まえ,検索エンジンは,より詳細に情報の時間的側面を考慮する必要があると私達は考えています.

NTCIR-11では,クエリ意図の時間的分類(TQIC)と時間的情報検索(TIR)の2つのサブタスクのためのテストコレクションを構築しました.

Collection 文書データ  タスクデータ 
サブ タスク  タイプ   言語 サイズ 収集期間 ファイル名 
コーパス名 言語 サイズ  収集年度
NTCIR-11 Temporalia Living Knowledge Corpus 2011-2013 *(A) 英語 約3,800,000文書(約20GB) 2011年5月 - 2013年2月 TQIC クエリ 英語 300クエリ  2014年 NTCIR-11_TQIC_Queries_with_Class.xml 
TIR 文書 英語 50トピック,4,578文書 トピックデータ : NTCIR-11_TIR_Topics.xml
適合性判定データ:NTCIR-11_TIR_Relevance_Judgements.tsv


*(A) : 文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
- 入手方法はこちら

文書データ, 検索課題および適合判定

文書データ

Living Knowledge Corpus

次のURLをご参照下さい. - http://ntcirtemporalia.github.io/NTCIR-11/collection.html


TQIC

各クエリは以下のような形式から利用できます.

<query>
<id>001</id>
<query_string>the difference between mass and weight</query_string>
<query_issue_time>May 1, 2013 GMT+0</query_issue_time>
<temporal_class>atemporal</temporal_class>
</query>

「id」:テストコレクション中で各クエリを一意に参照するためのクエリID.

「query_string」タグ:クエリ文.

「query_issue_time」:クエリの発行時刻.

「temporal_class」:クエリの意図するクラス.


TIR

各トピックは以下のような形式から利用できます.

<topic>
<id>039</id>
<title>Trip to Bali</title>
<description>Bali has been a popular tourist destination for ...</description>
<query_issue_time>Mar 30, 2013 GMT+0:00</query_issue_time>
<subtopics>
<subtopic id="039a" type="atemporal">What makes Bali a popular tourist destination for vacation?</subtopic>
<subtopic id="039p" type="past">What dramatic events happened in Bali before 2010?</subtopic>
<subtopic id="039r" type="recency">What are some recent news items concerning a vacation in Bali?</subtopic>
<subtopic id="039f" type="future">What are future touristic developments in Bali?</subtopic>
</subtopics>
</topic>

「id」:コレクション中で各トピックを一意に参照するためのトピックID.

「title」:検索意図の簡単な説明をするタイトル.

「description」:検索の背景と動機の説明文.

「query_issue_time」:検索をしたときの時刻.

「subtopic」:トピック中の各クラスに対応するサブトピッククエリ.

「type」:サブトピックが対象とするクラス.

「id」:サブトピックを一意に参照するためのサブトピックID.


適合性判定

各文書の適合性判定は以下のような形式から利用できます.

r Document ID Rel
001a lk-20110830040101_530 L0
001a lk-20111001040102_2640 L1
001a lk-20111005040101_3110 L2

「r」カラム:サブトピックを特定するためのID.末尾のアルファベットで時間クラスを識別(a=atemporal, f=future, p=past, r=recency)

「Document ID」カラム:Living Knowledge Corpus中で各文書を参照するためのID.

「Rel」カラム:そのサブトピックの内容に対する適合性評価値(L0=Not Relevant, L1=Relevant, L2=Highly Relevant)

 入手方法

NIIから配布するものはいずれも無料です。
参考書類 ---   
お問い合わせ: ntc-secretariat


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。