[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-4 WEBテストコレクションは、主にJPドメインのWeb上で提供される文書を収集しタグを付与したテキストデータである「文書データ」と、 それに対して行う検索課題、および各検索課題に対する文書の適合判定 からなる「タスクデータ」によって構成されています。
NTCIR-4 WEBテストコレクションの「タスクデータ」には、 情報指向検索(Info 1)とナビゲーション指向検索(Navi 1)の二種類があります。 「文書データ」はNTCIR-3 WEBと共通で、約100GBのWeb文書からなる「NW100G-01」です。
「文書データ」はDVD-Rまたはハードディスクドライブで、 「タスクデータ」はインターネットを介して電子的手段で、それぞれ提供されます。
コレクション | タスク | 文書データ | タスク データ | |||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 検索課題 | 適合判定 | |||
言語 | # | |||||||||
NTCIR-4 WEB Info 1 | IR(情報指向) | Web (html/text) | NW100G-01*2 | 多言語*1 | 2001年に収集 | 約1100万 | 約100GB | J* | 80 | 4 段階 |
NTCIR-4 WEB Navi 1 | IR(ナビゲーション指向) | J* | 300 | 3 段階 |
* 英訳あり
*1 大部分は日本語又は英語(一部他言語あり)
*2 NW100G-01はNTCIR-3 WEB とNTCIR-4で共通です。
*全データをNIIから提供します。
NTCIR-4 WEBではNTCIR-3 WEBと共通の「NW100G-01」を使用します。 「NW100G-01」はサイズ約100GB、文書数約1100万のWeb文書とそのメタデータからなり、
概要は 以下のとおりです
収集範囲:
対象サイト:.jpドメインのhttpサーバ
対象ポート:すべて
対象ページ: HTML,Plaintext などのテキストファイル
NW100G-01には以下のファイルが含まれます。(詳細は文書データとともに配布されるreadme.dataをご参照ください。)
リストファイル
aliaslist : 別名サイトのリスト
doclist :
配布Web文書ページのリスト
duplist : 重複ページのリスト
sitelist : 収集サイトのリスト
targetlist : 検索対象文書ページのリスト
linklist :
doclist中のページからtargetlist中のページへのリンクのリスト
文書ファイル
raw:
収集したままの文書データおよび対応するメタデータ
euc: 日本語文字をEUCコードに変換した文書データおよび対応するメタデータ
cooked: 不必要なタグや文書要素などを取り除いた文書データおよび対応するメタデータ
検索課題について
- 情報指向検索(Info 1) -
課題作成は、作成者の情報要求の話題の側面に着目し,それに関する情報が含まれる文書を検索するという状況を想定して行われました。検索課題と検索する目的・背景に大きなギャップが生じないよう、又、時間依存した課題にならないよう留意しました。タスクオーガナイザによる課題選考過程と数回のプーリング後,プロジェクト参加者に配布された153課題のうち35課題に対して網羅的な適合判定を行い,これら35課題を含めた80課題に対して検索結果上位のみに着目した適合判定を行いました。
- ナビゲーション指向検索(Navi 1)
-
課題作成は、既知の事物に関して代表的なWebページを検索するという状況を想定して行われました。11名の課題作成者が各自の日常的な活動における自然な検索事項を記述し、タスクオーガナイザーが検索事項の種別のバランス等を考慮しつつナビゲーション指向検索に適切な300課題を選択しました。
正解判定について:
- 情報指向検索(Info 1) -
判定者が検索課題の話題に適合するかどうかを最大4段階(高適合、適合、部分適合、不適合)で判定しました.(i)適合文書を包括的に探す場合, (ii)少数件の適合文書のみを探す場合を想定して評価を行いました。
- ナビゲーション指向検索(Navi 1) -
判定者が検索事項に対する代表性によって適合、部分適合、不適合の3段階で判定しました。
お申込み ---