[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-11 IMine テストコレクションには、以下のデータが含まれます。
(a) NTCIR-11 IMine 中国語 サブトピック マイニング テストコレクション
(b) NTCIR-11 IMine 日本語 サブトピック マイニング テストコレクション
(c) NTCIR-11 IMine 英語 サブトピック マイニング テストコレクション
(d) NTCIR-11 IMine 中国語 ドキュメント ランキング テストコレクション
(e) NTCIR-11 IMine 英語 ドキュメント ランキング テストコレクション
(f) NTCIR-11 IMine 日本語 検索タスク マイニング テストコレクション
ドキュメント ランキングの評価のためには、別途、ウェブ文書コーパス(SogouT (中国語) および ClueWeb12-B13 (英語語用)) を入手する必要があります(NIIからは提供しておりません)。
サブトピック マイニング、検索タスク マイニングについては、文書コレクションは必要ありません。
SogouT (version: 2012) |
- この文書データは、Tsinghua-Sohu Joint Laboratory on Search Technology から入手可能です。 コレクションは、約1億3000万件の中国語ウェブページ(関連するリンクグラフを含む)を含み、容量は非圧縮で約5TBです。 データは、2012年にクロール、公開されたものです。 データについての詳細は、こちらのぺージをご覧ください: http://www.sogou.com/labs/dl/t-e.html. 入手方法のお問い合わせは chenjing にお願いします。 |
ClueWeb12-B13 | -- この文書データは、Carnegie Mellon University の Language Technologies Institute
から入手可能です。 ClueWeb12-B13 collectionは、ClueWeb12コレクションに含まれる、5,200万件のウェブページから構成されています。参加者のために費用負担を軽減した ClueWeb12-B13 collectionをご提供くださった Professor Jamie Callan と彼のチームに、心より御礼申し上げます。データは、2012年2月10日から2012年5月10日の期間にクロールされたものです。 データについての詳細は、こちらのページをご覧ください: http://lemurproject.org/clueweb12/ |
サブトピック マイニング テストコレクション は、以下のデータから構成されています。
(1) 50 topics (queries)
(2) Hierarchical intents for each topic, obtained by manually clustering the subtopic
strings submitted by the Subtopic Mining participants
(3) An intent probability for each intent, estimated through assessor voting
(4) Pooled subtopics that correspond to each intent
ドキュメント ランキング テストコレクション は、以下のデータから構成されています。
(1) 50 topics (サブトピック マイニングと共通)
(2) Pooled and judged documents with graded relevance, from L0 (judged nonrelevant) to L4 (highly relevant).
検索タスク マイニング テストコレクション は、以下のデータから構成されています。
(1) 50 topics (queries)
(2) Gold Standard task strings with thier importance for each topic
(3) Pooled participant task strings with matching information with gold standard task strings.
詳細については、およびNTCIR-11 IMineタスク統括論文をご覧ください。
NTCIR-11会議論文集: http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings11/NTCIR/toc_ntcir.html
お申込み --- NIIから配布するものはいずれも無料です。
参考書類 ---
- NTCIR-11 IMineのタスクデータは、NIIのIDRからダウンロードできます:
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
- 利用規程
- NTCIR-11 IMine タスク統括論文
Overview of the NTCIR-11 IMine Task- NTCIR-11 IMine タスクウェブサイト
http://www.thuir.org/IMine/- ツール
http://research.nii.ac.jp/ntcir/tools/tools-ja.html
お問い合わせ : ntc-secretariat
注意事項 ---
テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々
研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、
覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。