[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
「NTCIR-11 Temporal Information Access (Temporalia)」は,時間的情報アクセス研究を発展するためのタスクです.文書の適合性を推定するときに「時間」という要因が重要な役割を果たしているという事実を踏まえ,検索エンジンは,より詳細に情報の時間的側面を考慮する必要があると私達は考えています.
NTCIR-11では,クエリ意図の時間的分類(TQIC)と時間的情報検索(TIR)の2つのサブタスクのためのテストコレクションを構築しました.
Collection | 文書データ | タスクデータ | |||||||||
サブ タスク | タイプ | 言語 | サイズ | 収集期間 | ファイル名 | ||||||
コーパス名 | 言語 | サイズ | 収集年度 | ||||||||
NTCIR-11 Temporalia | Living Knowledge Corpus 2011-2013 *(A) | 英語 | 約3,800,000文書(約20GB) | 2011年5月 - 2013年2月 | TQIC | クエリ | 英語 | 300クエリ | 2014年 | NTCIR-11_TQIC_Queries_with_Class.xml | |
TIR | 文書 | 英語 | 50トピック,4,578文書 | トピックデータ : NTCIR-11_TIR_Topics.xml | |||||||
適合性判定データ:NTCIR-11_TIR_Relevance_Judgements.tsv |
*(A) : 文書データはNIIから配布いたしません。利用者は、別途入手する必要があります。
- 入手方法はこちら
次のURLをご参照下さい. - http://ntcirtemporalia.github.io/NTCIR-11/collection.html
各クエリは以下のような形式から利用できます.
「id」:テストコレクション中で各クエリを一意に参照するためのクエリID.
「query_string」タグ:クエリ文.
「query_issue_time」:クエリの発行時刻.
「temporal_class」:クエリの意図するクラス.
各トピックは以下のような形式から利用できます.
「id」:コレクション中で各トピックを一意に参照するためのトピックID.
「title」:検索意図の簡単な説明をするタイトル.
「description」:検索の背景と動機の説明文.
「query_issue_time」:検索をしたときの時刻.
「subtopic」:トピック中の各クラスに対応するサブトピッククエリ.
「type」:サブトピックが対象とするクラス.
「id」:サブトピックを一意に参照するためのサブトピックID.
各文書の適合性判定は以下のような形式から利用できます.
「r」カラム:サブトピックを特定するためのID.末尾のアルファベットで時間クラスを識別(a=atemporal, f=future, p=past, r=recency)
「Document ID」カラム:Living Knowledge Corpus中で各文書を参照するためのID.
「Rel」カラム:そのサブトピックの内容に対する適合性評価値(L0=Not Relevant, L1=Relevant, L2=Highly Relevant)
NIIから配布するものはいずれも無料です。
参考書類 ---
- NTCIR-11 Temporaliaタスクデータ(クエリ、トピック、適合判定)は、NIIのIDRからダウンロードできます:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
- 文書データはNIIから配布いたしません。利用者は、別途入手する必要があります:
- Living Knowledge Corpus: 次のURLをご参照下さい:http://ntcirtemporalia.github.io/NTCIR-11/collection.html
お問い合わせ: ntc-secretariat
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。