NTCIR Project
NTCIR-10 INTENT (INTENT-2)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-10 INTENT(INTENT-2)



NTCIR-10 INTENT テストコレクションには、以下のデータが含まれます。

(a) NTCIR-10 INTENT-2 中国語 サブトピック マイニング テストコレクション
(b) NTCIR-10 INTENT-2 日本語 サブトピック マイニング テストコレクション
(c) NTCIR-10 INTENT-2 英語 サブトピック マイニング テストコレクション
(d) NTCIR-10 INTENT-2 中国語 ドキュメント ランキング テストコレクション
(e) NTCIR-10 INTENT-2 日本語 ドキュメント ランキング テストコレクション

文書データ, 検索課題および適合判定

文書データ

ドキュメント ランキングの評価のためには、別途、ウェブ文書コーパス(SogouT (中国語) および ClueWeb09-JA (日本語用)) を入手する必要があります(NIIからは提供しておりません)。
サブトピック マイニングについては、文書コレクションは必要ありません。

SogouT
(version: 2012)
- この文書データは、Tsinghua-Sohu Joint Laboratory on Search Technology から入手可能です。
コレクションは、約1億3000万件の中国語ウェブページ(関連するリンクグラフを含む)を含み、容量は非圧縮で約5TBです。 データは、2012年にクロール、公開されたものです。

データについての詳細は、こちらのぺージをご覧ください:
http://www.sogou.com/labs/dl/t-e.html
入手方法のお問い合わせは chenjing にお願いします。
ClueWeb09-JA -- この文書データは、Carnegie Mellon University の Language Technologies Institute から入手可能です。
ClueWeb09-JA collectionは、ClueWeb09コレクションに含まれる、6700万件の日本語ウェブページから構成されています。参加者のために費用負担を軽減した ClueWeb09-JA collectionをご提供くださった Professor Jamie Callan と彼のチームに、心より御礼申し上げます。データは、2009年1月および2月にクロールされたものです。

データについての詳細は、こちらのページをご覧ください:
http://boston.lti.cs.cmu.edu/Data/clueweb09/


サブトピック マイニング テストコレクション は、以下のデータから構成されています。

(1) 100 topics (queries)
(2) Intents for each topic, obtained by manually clustering the subtopic strings submitted by the Subtopic Mining participants
(3) An intent probability for each intent, estimated through assessor voting
(4) Pooled subtopics that correspond to each intent, where each subtopic belongs to exactly one intent

ドキュメント ランキング テストコレクション は、以下のデータから構成されています。

(1) 100 topics (サブトピック マイニングと共通)
(2) Intents for each topic (サブトピック マイニングと共通)
(3) An intent probability for each intent (サブトピック マイニングと共通)
(4) Pooled and judged documents with graded relevance, from L0 (judged nonrelevant) to L4 (highly relevant).

詳細については、テストコレクション内のREADMEファイル
およびNTCIR-10 INTENTタスク統括論文をご覧ください。
NTCIR-10会議論文集: http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings10/NTCIR/toc_ntcir.html

 入手方法

お申込み --- NIIから配布するものはいずれも無料です。

参考書類 ---   
お問い合わせ : ntc-secretariat


注意事項 ---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで 利用するために提供されたものです。いずれも、著作権があり、商品 としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々 研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、 覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。