NTCIR Project
NTCIR-5 WEB　（Web検索評価用テストコレクション）
データ利用手続き（研究目的用）

NTCIR-5 WEB （Web検索評価用テストコレクション）

NTCIR-5WEB テストコレクションはNIIのIDRから配布を行っています。お申込み方法については IDRのサイトをご参照下さい。

NTCIR-5 WEBテストコレクションは、主に「日本のWebサイト」上で提供されている文書を収集し，必要な処理を行ったテキストデータである「文書データ」と、それに対して行う検索課題、および各検索課題に対する文書の適合判定からなる「タスクデータ」によって構成されています。

NTCIR-5 WEBテストコレクションの「タスクデータ」にはナビゲーション指向検索（Navi 2）用の必須課題400個とオプション課題841個が含まれています。「文書データ」は約1400GB，約1億ページのWeb文書からなる「NW1000G-04」です。

コレクション	タスク	文書データ						タスク　データ
		ジャンル	ファイル名	言語	年度	文書数	サイズ	検索課題		正解判定
								言語	#	段階
NTCIR-5WEB	IR	Web (html/text)	NW1000G-04	multiple*1	crawled in 2004-2005	approx. 100M	approx. 1400GB	J	400+841(opt.)	2

* データは全てNIIから入手可能です。
*1 主に日本語と英語（他の言語も含む）

　　

NW1000G-04は主に「日本のWebサイト」上で提供されている文書を2004年1月から2005年1月にかけて収集し、必要な処理を行ったテキストデータで、Webページデータとそれに付属する各種リストが含まれます。Webページデータには原データ (raw)、文字コードをEUCに変換したデータ (euc)、不要なタグ等を除去したデータ (cook)、及び形態素解析を行ったデータ (mecab) の4種類があります。リストには収集したサイトのリスト (sitelist)、文書のリスト (doclist)、リンクのリスト (linklist)、及びアンカーテキストのリスト (anclist) の4種類があります。

　

本タスクデータはNTCIR-5 WEBにおいて行ったナビゲーション指向検索サブタスク（Navi-2）において作成されたデータです。タスクデータには「検索課題」と「適合判定」が含まれます。検索課題には「必須」と「オプション」があり、適合判定もそれぞれに対応しています。必須課題は400課題を含み、Navi-2のフォーマルランにおけるシステム評価で使用されたものです。オプション検索課題は841課題を含み、フォーマルランでのシステム評価には使わず、テストコレクション全体の詳細な分析と補強のために配布したものです。これに対する結果提出は任意であり、提出されなかったチームもあります。また、必須検索課題と同一のシステム条件で処理するよう指示を加えました。

お申込み ---

NTCIR-5WEBテストコレクションはNIIのIDRから配布を行っています。お申込み方法については IDRのサイトをご参照下さい。

参考書類　--- 　　　　　　

利用規程
README (WN100G-04：文書データ用）
NTCIR-5タスク統括論文
Overview of the NTCIR-5 WEB Navigational Retrieval Subtask 2 (Navi-2)
Overview of the NTCIR-5 WEB Query Term Expansion Subtask

注意事項 ---

テストコレクションに含まれる文書データを構成する各Webページデータの著作権は、各Webページの作成者もしくは、作成者により権利を委譲された者に帰属します。また、本テストコレクションは研究目的のみに利用できます。詳しくは覚書を参照してください。

[ENGLISH] [NTCIR ホーム] [このページの先頭] [NTCIR データ Home]
Updated on : 2015-07-22
ntc-admin

NTCIR Project NTCIR-5 WEB （Web検索評価用テストコレクション） データ利用手続き （研究目的用）

NTCIR-5 WEB （Web検索評価用テストコレクション）

NTCIR Project
NTCIR-5 WEB　（Web検索評価用テストコレクション）
データ利用手続き（研究目的用）