NTCIR Project
NTCIR-5 WEB (Web検索評価用テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-5 WEB (Web検索評価用テストコレクション)



NTCIR-5 WEBテストコレクションは、主に「日本のWebサイト」上で提供されている文書を収集し,必要な処理を行ったテキストデータである「文書データ」と、 それに対して行う検索課題、および各検索課題に対する文書の適合判定 からなる「タスクデータ」によって構成されています。

NTCIR-5 WEBテストコレクションの「タスクデータ」にはナビゲーション指向検索(Navi 2)用の必須課題400個とオプション課題841個が含まれています。 「文書データ」は約1400GB,約1億ページのWeb文書からなる「NW1000G-04」です。

コレクション タスク 文書データ タスク データ
ジャンル ファイル名 言語 年度 文書数 サイズ 検索課題 正解判定
言語 # 段階  
NTCIR-5WEB  IR Web (html/text) NW1000G-04 multiple*1 crawled in 2004-2005 approx. 100M approx. 1400GB J 400+841(opt.) 2

* データは全てNIIから入手可能です。
*1 主に日本語と英語(他の言語も含む)



文書データ, 検索課題および適合判定

 文書データ 


NW1000G-04は主に「日本のWebサイト」上で提供されている文書を2004年1月から2005年1月にかけて収集し、必要な処理を行ったテキストデー タで、Webページデータとそれに付属する各種リストが含まれます。Webページデータには原データ (raw)、文字コードをEUCに変換したデータ (euc)、不要なタグ等を除去したデータ (cook)、及び形態素解析を行ったデータ (mecab) の4種類があります。リストには収集したサイトのリスト (sitelist)、文書のリスト (doclist)、リンクのリスト (linklist)、及びアンカーテキストのリスト (anclist) の4種類があります。

 


本タスクデータはNTCIR-5 WEBにおいて行ったナビゲーション指向検索サブタスク(Navi-2)において作成されたデータです。タスクデータには「検索課題」と「適合判定」が含 まれます。検索課題には「必須」と「オプション」があり、適合判定もそれぞれに対応しています。必須課題は400課題を含み、Navi-2のフォーマルラ ンにおけるシステム評価で使用されたものです。オプション検索課題は841課題を含み、フォーマルランでのシステム評価には使わず、テストコレクション全 体の詳細な分析と補強のために配布したものです。これに対する結果提出は任意であり、提出されなかったチームもあります。また、必須検索課題と同一のシス テム条件で処理するよう指示を加えました。


入手方法

お申込み ---

NTCIR-5WEBテストコレクションはNIIのIDRから配布を行っています。お申込み方法については IDRのサイトをご参照下さい。

参考書類 ---        

注意事項---

テストコレクションに含まれる文書データを構成する各Webページデータの著作権は、各Webページの作成者もしくは、作成者により権利を委譲された者に帰属します。また、本テストコレクションは研究目的のみに利用できます。詳しくは覚書を参照してください。