NTCIR Project
NTCIR-11 IMine
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-11 IMine



NTCIR-11 IMine テストコレクションには、以下のデータが含まれます。

(a) NTCIR-11 IMine 中国語 サブトピック マイニング テストコレクション
(b) NTCIR-11 IMine 日本語 サブトピック マイニング テストコレクション
(c) NTCIR-11 IMine 英語 サブトピック マイニング テストコレクション
(d) NTCIR-11 IMine 中国語 ドキュメント ランキング テストコレクション
(e) NTCIR-11 IMine 英語 ドキュメント ランキング テストコレクション
(f) NTCIR-11 IMine 日本語 検索タスク マイニング テストコレクション

文書データ, 検索課題および適合判定

文書データ

ドキュメント ランキングの評価のためには、別途、ウェブ文書コーパス(SogouT (中国語) および ClueWeb12-B13 (英語語用)) を入手する必要があります(NIIからは提供しておりません)。
サブトピック マイニング、検索タスク マイニングについては、文書コレクションは必要ありません。

SogouT
(version: 2012)
- この文書データは、Tsinghua-Sohu Joint Laboratory on Search Technology から入手可能です。
コレクションは、約1億3000万件の中国語ウェブページ(関連するリンクグラフを含む)を含み、容量は非圧縮で約5TBです。 データは、2012年にクロール、公開されたものです。

データについての詳細は、こちらのぺージをご覧ください:
http://www.sogou.com/labs/dl/t-e.html
入手方法のお問い合わせは chenjing にお願いします。
ClueWeb12-B13 -- この文書データは、Carnegie Mellon University の Language Technologies Institute から入手可能です。
ClueWeb12-B13 collectionは、ClueWeb12コレクションに含まれる、5,200万件のウェブページから構成されています。参加者のために費用負担を軽減した ClueWeb12-B13 collectionをご提供くださった Professor Jamie Callan と彼のチームに、心より御礼申し上げます。データは、2012年2月10日から2012年5月10日の期間にクロールされたものです。

データについての詳細は、こちらのページをご覧ください:
http://lemurproject.org/clueweb12/


サブトピック マイニング テストコレクション は、以下のデータから構成されています。

(1) 50 topics (queries)
(2) Hierarchical intents for each topic, obtained by manually clustering the subtopic strings submitted by the Subtopic Mining participants
(3) An intent probability for each intent, estimated through assessor voting
(4) Pooled subtopics that correspond to each intent

ドキュメント ランキング テストコレクション は、以下のデータから構成されています。

(1) 50 topics (サブトピック マイニングと共通)
(2) Pooled and judged documents with graded relevance, from L0 (judged nonrelevant) to L4 (highly relevant).

検索タスク マイニング テストコレクション は、以下のデータから構成されています。

(1) 50 topics (queries)
(2) Gold Standard task strings with thier importance for each topic
(3) Pooled participant task strings with matching information with gold standard task strings.

詳細については、およびNTCIR-11 IMineタスク統括論文をご覧ください。
NTCIR-11会議論文集: http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings11/NTCIR/toc_ntcir.html

 入手方法

お申込み --- NIIから配布するものはいずれも無料です。

参考書類 ---   
お問い合わせ : ntc-secretariat


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。