[English] [NTCIR-WEBのホーム] [NTCIR-5のホーム] [NTCIRのホーム]

第5回NTCIRワークショップ・WEBタスク(NTCIR-5 WEB)
参加募集

2005-01-13 更新
2004-07-25 作成


What's New


目次

運営組織
問い合わせ先
参加申込方法
文書データ
オープンラボラトリ
タスク概要
ナビゲーション指向検索タスク2 (Navigational Retrieval Task 2)
検索語選択支援タスク (Query Term Expansion Task) (パイロットタスク)
参加形態
スケジュール

運営組織

問い合わせ先

参加申込方法

参加申込のページをご 参照の上,参加グループごとにこ ちらの参加申込フォームに必要事項をご記入ください。また,参加者用 覚書を指示に従ってご提出ください。

文書データ

NTCIR-5 WEBでは,2004年に*.jpドメインを中心として収集した,ページデータの合計容量が約1TBの文書データNW1000G-04を用いる予定です。300GB程度のサブセットNW300G-04についても検討中です。内容および形式については NTCIR-3/4 WEBで用いたNW100G-01とほぼ同様であり,以下の4種類のバージョンを用意する予定です。

(1) RAW:
収集したままのWebページ
(2) EUC:
RAWの日本語文字コードをEUCに変換したWebページ
(3) COOKED:
EUCからhtmlのタグや不要な要素を除去して抽出したプレインテキストデータ
(4) SEGMENTED:
COOKEDに形態素解析処理を行った分かち書きテキストデータ

RAW,EUCおよびCOOKEDはNTCIR-4 WEBと同様,ハードディスク装置に格納して全参加者に配布します。SEGMENTEDはNTCIR-5 WEBで新しく用意するバージョンですが,データ容量が大きくなる見込みであり,参加者の要望に応じた取り扱いが必要になるため,配布は遅くなることが 予想されます。

オープンラボ ラトリ

国立情報学研究所に設けたオープンラボラトリの計算機資源を, 既 設の資源の範囲内で参加者が利用できるようにする予定です。オープンラボラトリの申請方法については後日アナウンスします。

タスク概要

WEBタスクは,タグとリンクによる構造を備えた大規模Web文書に対する情報アクセスシステ ムに関する研究を推進することを目的とし,実際のWebの利用状況をさまざまな観点から捉え,それらにおいて要求される基盤的な技 術を評価するために,第3回NTCIRワークショップ以来行われてきました。 しかし,第5回NTCIRワークショップ・WEBタスク(NTCIR-5 WEB)では,運営組織上の事情により,主たるサブタスクとしてナビゲーション指 向検索タスク2の一つに焦点を絞り,その他には新たに提案されたパイロットタスク検索語選択支援タスクのみを取 り上 げることとします。第3回および第4回 NTCIRワークショップ・WEBタスク(NTCIR-3/4 WEB)で行った他のサブタスクについても,将来のNTCIRワークショップで再度取り上げる可能性はあります。

以下,現時点でのタスク設計の概要をサブタスクごとに述べますが,詳細は改めてNTCIR-WEBのホームページにおいて公表します。より良いワー クショップの運営,テストコレクションの構築のためにはワークショップ参加者の積極的な貢献が重要であり,関係研究者からの要望やアドバイスなどを大いに 期待しています。

ナビゲー ション指向検索タスク2

ナビゲーション指向検索タスクはNTCIR-4 WEBで新しく提案されたサブタスクの一つである。「ナビゲーション指向検索」とは 利用者が求める特定の情報の所在へ案内するための検索を指す。 NTCIR-4/5 WEBではナビゲーション指向検索の一つである既知事項検索に焦点を当ててい る。

既知事項検索は所与の事項に関する代表的Webペー ジを検索するものであり,Webページが所与であるわけではない。代表的Webページは,サイトトップページ,一連の関連するページ群の入り口のページ, あるいは十分な情報をもった単 一のページなどとなる可能性がある。想定される利用者の状況としては,(i) 利用者は既知の対象事物(人物,店舗,施設など)の名前を知っており,その名前を用いて代表的なWebページの検索を実行する場合,および (ii) 利用者は対象物を知っているが名前は覚えていないため,その属性や関連する情報を用いて検索を実行する場合,の二つがある。いずれの場合も,適合文書は一 つもしくは若干数であることが多い。これらのことから,本サブタスクにはTREC Web Trackの“Home Page Finding”および“Named Page Finding”を含み,より広い範囲を対象としていると考えら得れる。

通常の情報指向検索ではしばしば文書本文内容のみを処理の対象とするのに対し,Web検索 では アンカー,リンク構造,論理的文書単位などを適切に処理・活用することが有効であると考えられている。ナビゲーション指向検索タスク1の結果からは,既知 事項検索においてはこの傾向が顕著であることが示唆されている。そこで,本タスクに適した独自の手法を用いたシステムによる参加を歓迎する。

以下に本サブタスクの概要を示すが,詳細についてはNTCIR-4 ワーキングノーツオー バービューを参照されたい。

検索課題(質問):
上記の状況 (i) と (ii) の両方を想定した検索課題を作成する。検索対象事物としては,製品・サービス,店舗,施設,組織,人物,イベント,情報源,文書などが含まれる。
提出する実行結果:
参加者は,検索課題ごとに適合度順の検索結果の上位から最大100文書までを順位付きで提出する。ここで,検索実行結果リストは,文書IDの リストからなる。ただし,上記100文書のすべてを用いて評価するとは限らない。
実行結果リストの形式はNTCIR-3 WEBのターゲット検索タスクと同一とする(サンプル)。 参加者が提出できる実行結果リストの数は検討中である。それぞれの実行結果リストには優先順位を付与する.
適合判定:
参加者から提出された全ての実行結果から,検索課題ごとに一定数の上位の文書を収集して文書プールを作成する。判定者はプール中の各文書につ いて検索対象事物の代表的ページであるかどうかを判定する。また,ハイパーリンクやURLなどから代表的ページの可能性があると判断した文書についても判 定を行う。
評価:
評価には,MRR(Mean Reciprocal Rank),DCG(Discounted Cumulative Gain),およびその他のナビゲーション指向検索に適した評価指標を使用し,重複文書や密にリンクされた文書についても考慮する予定である。

検索語 選択支援タスク(パイロットサブタスク)

検索語選択支援タスクは新しく提案されたパイロットサブタスクである。詳細についてはオー ガナ イザおよび参加者間での検討に基づいて決定する予定である。内容については本サブタスクのページを参照のこと。

参加形態

上記の2サブタスクへの同時参加,個別参加ともに可能です。

スケジュール

DATE
ACTION
2004-08-01
参加募集(暫定版)
2004-09-20
参加登録締切
* 締切後の登録後も可能な限り受け付けます。
2004-10-01
文書データ配布
* 準備のできた部分から順次提供します。最初は約300GBの予定。
2004-12-01
ドライラン検索課題配布
2005-01-01
ドライラン実行結果提出
2005-03-01
ドライラン評価結果配布
2005-04-15
フォーマルラン検索課題配布
2005-05-15
フォーマルラン実行結果提出
2005-08-01
フォーマルラン評価結果配布
2005-10-01
ワーキングノーツ用カメラレディ原稿提出締切
* ワーキングノーツは成果報告会で配布予定
2005-12-6--9
成果報告会
2006-02-
プロシーディングス用カメラレディ原稿提出締切
* プロシーディングスは一般に刊行予定
ntcadm-web@'nii.ac.jp

[Top] [English] [NTCIR-WEBのホーム] [NTCIR-5のホーム] [NTCIRのホーム]