[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-5 WEBテストコレクションは、主に「日本のWebサイト」上で提供されている文書を収集し,必要な処理を行ったテキストデータである「文書データ」と、
それに対して行う検索課題、および各検索課題に対する文書の適合判定 からなる「タスクデータ」によって構成されています。
NTCIR-5 WEBテストコレクションの「タスクデータ」にはナビゲーション指向検索(Navi 2)用の必須課題400個とオプション課題841個が含まれています。
「文書データ」は約1400GB,約1億ページのWeb文書からなる「NW1000G-04」です。
コレクション | タスク | 文書データ | タスク データ | |||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 検索課題 | 正解判定 | |||
言語 | # | 段階 | ||||||||
NTCIR-5WEB | IR | Web (html/text) | NW1000G-04 | multiple*1 | crawled in 2004-2005 | approx. 100M | approx. 1400GB | J | 400+841(opt.) | 2 |
* データは全てNIIから入手可能です。
*1 主に日本語と英語(他の言語も含む)
NW1000G-04は主に「日本のWebサイト」上で提供されている文書を2004年1月から2005年1月にかけて収集し、必要な処理を行ったテキストデー
タで、Webページデータとそれに付属する各種リストが含まれます。Webページデータには原データ
(raw)、文字コードをEUCに変換したデータ (euc)、不要なタグ等を除去したデータ
(cook)、及び形態素解析を行ったデータ (mecab) の4種類があります。リストには収集したサイトのリスト
(sitelist)、文書のリスト (doclist)、リンクのリスト (linklist)、及びアンカーテキストのリスト
(anclist) の4種類があります。
本タスクデータはNTCIR-5 WEBにおいて行ったナビゲーション指向検索サブタスク(Navi-2)において作成されたデータです。タスクデータには「検索課題」と「適合判定」が含
まれます。検索課題には「必須」と「オプション」があり、適合判定もそれぞれに対応しています。必須課題は400課題を含み、Navi-2のフォーマルラ
ンにおけるシステム評価で使用されたものです。オプション検索課題は841課題を含み、フォーマルランでのシステム評価には使わず、テストコレクション全
体の詳細な分析と補強のために配布したものです。これに対する結果提出は任意であり、提出されなかったチームもあります。また、必須検索課題と同一のシス
テム条件で処理するよう指示を加えました。
お申込み ---
参考書類 ---