-----------------------------------------------------------------------
NTCIR-5 WEBテストコレクション文書データ“NW1000G-04”について
-----------------------------------------------------------------------
本文書では、NTCIR-5 WEBテストコレクションの文書データ“NW1000G-04”
を構成する各ファイルについて説明します。
1. データ一覧
~~~~~~~~~~~~~~~~
NW1000G-04は次のデータから成ります。
[リスト]
lists/sitelist/
: 収集されたサイトのリスト
lists/doclist/
: 含まれるWebページのリスト
lists/linklist.out/
: doclist中のページ間の順リンクを記述したリスト
lists/linklist.in/
: doclist中のページ間の逆リンクを記述したリスト
lists/anclist.out/
: doclist中のページ間の順リンクに付与されたアンカーテキスト
を記述したリスト
lists/anclist.in/
: doclist中のページ間の逆リンクに付与されたアンカーテキスト
を記述したリスト
[文書データ]
raw/
: ロボットによって収集されたままの原文書データ
euc/
: 原データの文字コードをEUCに変換した文書データ
cook/
: eucのデータから不必要なタグを削除した文書データ
mecab/
: cookのデータを日本語形態素解析ツールMeCabにかけた文書データ
※ *.encode あるいは *.filelist というファイルが含まれていますが、こ
れらは無視して下さい。
2. "sitelist"
~~~~~~~~~~~~~
ロボットによって収集されたサイトのリストです。
「doclist」の中の文書は、すべて「sitelist」中のサイトから収集されてい
ます。
リストの各行は、タブによって区切られたサイトIDとホスト名からなります。
サイトIDは7桁の10進数からなり、各ホスト名ごとにユニークです。
サイトIDは、ホスト名の辞書順でつけられていますが、連続しているとは限
りません。
ServerTypeは「http」に限定されています。
ホスト名はDNSホスト名です。
収集対象のポート番号は80に限定されています。
sitelist ファイルは、10,000ホストIDごとに別々のファイルで記述されており、
各sitelistファイルの名前は、ホストIDのはじめの3桁に「xxxx.sitelist」を
付加したものになっています。(例:ホストID:1230000〜1239999 のリストを
格納したファイルは、「123xxxx.sitelist」)
-- sitelistファイルの例: 073xxxx.sitelist
0730011 http://www.barnes.co.jp
0730021 http://www.barnesculinary.co.za
0730022 http://www.barnesfoundation.org
0730079 http://www.barneys.co.jp
0730117 http://www.barnoage.com
(snip)
0739892 http://www.because.ne.jp
0739926 http://www.becgroup.co.jp
0739943 http://www.bechstein.de
0739966 http://www.beck6mw.freeserve.co.uk
0739990 http://www.becker-japan.net
3. "doclist"
~~~~~~~~~~~~
「sitelist」にあるサイトから収集し、本文書データに含まれているページの
リストです。
リストの各行は、タブによって区切られた文書IDとページURLからなります。
文書IDは、サイトID(7桁の10進数)とページID(7桁の10進数)を「_」(アン
ダースコア)でつないだもので、各ページURLごとにユニークです。
ページIDは、各ホストにおけるページURLの辞書順で付与されています。
doclist ファイルは、10,000ホストIDごとに別々のファイルで記述されており、
各doclistファイルの名前は、各ページURLのホストIDのはじめの3桁に
「xxxx.doclist」を付加したものになっています。(例:ページURLのホスト
ID:1230000〜1239999 のリストを格納したファイルは、「123xxxx.doclist」)
-- doclistファイルの例: 073xxxx.doclist
0730011_0000001 http://www.barnes.co.jp/
0730011_0000002 http://www.barnes.co.jp/Dew.htm
0730011_0000003 http://www.barnes.co.jp/Ene-Pow.htm
0730011_0000004 http://www.barnes.co.jp/IR.htm
0730011_0000005 http://www.barnes.co.jp/News.htm
(snip)
0739990_0000036 http://www.becker-japan.net/site_oce.html
0739990_0000037 http://www.becker-japan.net/site_usa.html
0739990_0000038 http://www.becker-japan.net/snet.html
0739990_0000039 http://www.becker-japan.net/toride.html
0739990_0000040 http://www.becker-japan.net/totop.html
4. "linklist.out"
~~~~~~~~~~~~~~~~~
「doclist」中の文書間の順リンクを記述したリストです。
リストの各行は、タブによって区切られた、リンク元ページの文書ID、リンク元
ページのURL、リンク先ページの文書ID、リンク先ページのURL、リンクの種類
(タグ,属性)からなります。
linklist.out ファイルは、10,000ホストIDごとに別々のファイルで記述されて
おり、各ファイルの名前は、リンク元ページのホストIDのはじめの3桁に
「xxxx.outlink」を付加したものになっています。(例:ホストID:1230000〜
1239999 のリストを格納したファイルは「123xxxx.outlink」)
-- linklist.outファイルの例: 073xxxx.outlink
0730011_0000001 http://www.barnes.co.jp/ 0730011_0000002 http://www.barnes.co.jp/Dew.htm a,href
0730011_0000001 http://www.barnes.co.jp/ 0730011_0000003 http://www.barnes.co.jp/Ene-Pow.htm a,href
0730011_0000001 http://www.barnes.co.jp/ 0730011_0000004 http://www.barnes.co.jp/IR.htm a,href
0730011_0000001 http://www.barnes.co.jp/ 0730011_0000005 http://www.barnes.co.jp/News.htm a,href
0730011_0000001 http://www.barnes.co.jp/ 0730011_0000006 http://www.barnes.co.jp/Non-dest.htm a,href
(snip)
0739990_0000038 http://www.becker-japan.net/snet.html 0739990_0000034 http://www.becker-japan.net/site_eu.html a,href
0739990_0000038 http://www.becker-japan.net/snet.html 0739990_0000035 http://www.becker-japan.net/site_japan.html a,href
0739990_0000038 http://www.becker-japan.net/snet.html 0739990_0000036 http://www.becker-japan.net/site_oce.html a,href
0739990_0000038 http://www.becker-japan.net/snet.html 0739990_0000037 http://www.becker-japan.net/site_usa.html a,href
0739990_0000039 http://www.becker-japan.net/toride.html 0739990_0000040 http://www.becker-japan.net/totop.html a,href
5. "linklist.in"
~~~~~~~~~~~~~~~~
「doclist」中の文書間の逆リンクを記述したリストです。
リストの各行は、タブによって区切られた、リンク先ページの文書ID、リンク先
ページのURL、リンク元ページの文書ID、リンク元ページのURL、リンクの種類
(タグ,属性)からなります。
linklist.in ファイルは、10,000ホストIDごとに別々のファイルで記述されて
おり、各ファイルの名前は、リンク元ページのホストIDのはじめの3桁に
「xxxx.inlink」を付加したものになっています。(例:ホストID:1230000〜
1239999 のリストを格納したファイルは「123xxxx.inlink」)
-- linklist.inファイルの例: 073xxxx.inlink
0730011_0000001 http://www.barnes.co.jp/ 1852829_0000024 http://www.semiconbrain.com/50/ni.htm a,href
0730011_0000002 http://www.barnes.co.jp/Dew.htm 0730011_0000001 http://www.barnes.co.jp/ a,href
0730011_0000002 http://www.barnes.co.jp/Dew.htm 0730011_0000002 http://www.barnes.co.jp/Dew.htm a,href
0730011_0000002 http://www.barnes.co.jp/Dew.htm 0730011_0000003 http://www.barnes.co.jp/Ene-Pow.htm a,href
0730011_0000002 http://www.barnes.co.jp/Dew.htm 0730011_0000004 http://www.barnes.co.jp/IR.htm a,href
(snip)
0739990_0000040 http://www.becker-japan.net/totop.html 0739990_0000028 http://www.becker-japan.net/rvolc.html a,href
0739990_0000040 http://www.becker-japan.net/totop.html 0739990_0000029 http://www.becker-japan.net/rvolvp.html a,href
0739990_0000040 http://www.becker-japan.net/totop.html 0739990_0000030 http://www.becker-japan.net/scb.html a,href
0739990_0000040 http://www.becker-japan.net/totop.html 0739990_0000031 http://www.becker-japan.net/scvp.html a,href
0739990_0000040 http://www.becker-japan.net/totop.html 0739990_0000039 http://www.becker-japan.net/toride.html a,href
6. "anclist.out"
~~~~~~~~~~~~~~~~
「doclist」中の文書間の順リンクに付与されたアンカーテキストを記述したリ
ストです。
リストの各行は、タブによって区切られた、リンク元ページの文書ID、リンク先
ページの文書ID、アンカーテキストからなります。
anclist.out ファイルは、10,000ホストIDごとに別々のファイルで記述されて
おり、各ファイルの名前は、リンク元ページのホストIDのはじめの3桁に
「xxxx.outlink」を付加したものになっています。(例:ホストID:1230000〜
1239999 のリストを格納したファイルは「123xxxx.outlink」)
-- anclist.outファイルの例: 073xxxx.outlink
0730011_0000001 0730011_0000001 ボタン
0730011_0000001 0730011_0000002 露点温度測定器
0730011_0000001 0730011_0000003 光パワー/光エネルギー測定機器
0730011_0000001 0730011_0000004 赤外線応用製品
0730011_0000001 0730011_0000005 ボタン
(snip)
0739990_0000038 0739990_0000033 Asia
0739990_0000038 0739990_0000034 Europe
0739990_0000038 0739990_0000035 Japan
0739990_0000038 0739990_0000036 Oceania
0739990_0000038 0739990_0000037 U.S.A
7. "anclist.in"
~~~~~~~~~~~~~~~
「doclist」中の文書間の逆リンクに付与されたアンカーテキストを記述したリ
ストです。
リストの各行は、タブによって区切られた、リンク先ページの文書ID、リンク元
ページの文書ID、アンカーテキストからなります。
anclist.in ファイルは、10,000ホストIDごとに別々のファイルで記述されてお
り、各ファイルの名前は、リンク元ページのホストIDのはじめの3桁に
「xxxx.inlink」を付加したものになっています。(例:ホストID:1230000〜
1239999 のリストを格納したファイルは「123xxxx.inlink」)
-- anclist.inファイルの例: 073xxxx.inlink
0730011_0000001 0730011_0000011 Top
0730011_0000001 1852829_0000024 http://www.barnes.co.jp
0730011_0000001 0730011_0000002 ホームページ
0730011_0000001 0730011_0000003 ホームページ
0730011_0000001 0730011_0000004 ホームページ
(snip)
0739990_0000038 0739990_0000020 サービス網
0739990_0000038 0739990_0000021 サービス網
0739990_0000039 0739990_0000023 写 真
0739990_0000040 0739990_0000020 トップページへ
0739990_0000040 0739990_0000021 トップページへ
8. “raw”文書データ
~~~~~~~~~~~~~~~~~~~~
サイトリストに掲げられたホストを対象にロボットが収集した原文書データです。
“raw”文書データを格納するディレクトリの階層構造は、次のようになります。
・サブディレクトリの第1階層: サイトIDの最初の3文字。
・サブディレクトリの第2階層: サイトIDの4文字目、5文字目に「xx」を付与したもの。
・サブディレクトリの第3階層: サイトIDそのもの(7文字)。
・サブディレクトリの第4階層: ページIDの最初の3文字。
・サブディレクトリの第5階層: ページIDの4文字目、5文字目に「xx」を付与したもの。
各サイトから収集されたページデータは、対応するサブディレクトリ第5階層
に格納されています。各ページデータのファイル名は、文書ID、すなわちサイ
トIDとページIDを「_」でつないだものに、「.dat」の拡張子をつけたものに
なっています。(例:0000001_0000001.dat)
例えば、サイトID:1234567、ページID:0000123 の“raw”文書データは、
raw/123/45xx/1234567/000/01xx/1234567_0000123.dat
に格納されています。
9. “euc”文書データ
~~~~~~~~~~~~~~~~~~~~
“raw”文書データにおける各文書の文字コードをEUCで統一した文書データです。
文書データを格納するディレクトリの階層構造は、“raw”文書データと同一です。
各ページデータのファイル名は、文書ID、すなわちサイトIDとページIDを「_」で
つなげ、「.euc」の拡張子をつけたものになっています。
(例:0000001_0000001.euc)
例えば、サイトID:1234567、ページID:0000123 の“euc”文書データは、
euc/123/45xx/1234567/000/01xx/1234567_0000123.euc
に格納されています。
10. “cook”文書データ
~~~~~~~~~~~~~~~~~~~~~~~~
“euc”文書データから、不要なタグ等を除去した文書データです。
文書データを格納するディレクトリの階層構造は、“raw”文書データと同一です。
各ページデータのファイル名は、文書ID、すなわちサイトIDとページIDを「_」で
つなげ、「.cooked」の拡張子をつけたものになっています。
(例:0000001_0000001.cooked)
例えば、サイトID:1234567、ページID:0000123 の“cooked”文書データは、
cook/123/45xx/1234567/000/01xx/1234567_0000123.cooked
に格納されています。
また、各文書は以下のルールで処理されています。
(1) HTMLコメント、XML宣言およびXML定義は削除されています。
(2) タグのペアおよび内容は削除されています。
(3) タグのname属性が「keywords」もしくは「description」の場合、
content属性の内容が、行頭のタグの後に1行で記述されています。
(例)
==> information retrieval, test collection
(4) タグのalt属性の内容は、行頭のタグの後に1行で記述されて
います。
(5) その他のすべてのタグは単純に削除されています。
(6) 文字コードエンティティは削除されています(例:ऩ ʭ)。
(7) 文字エンティティは以下のように置換されています:
& ==> &
< ==> <
> ==> >
==> ' '
" ==> '"'
Α 〜 Ω ==> Α〜Ω(EUC全角ギリシャ文字)
α 〜 ω ==> α〜ω(EUC全角ギリシャ文字)
音標符号付きアルファベット ==> 音標符号を削除したアルファベット
Æ ==>AE
Ð ==>ETH
ß ==>ss
æ ==>ae
ð ==>eth
その他の文字エンティティは半角スペース(' ')で置換されています。
(8) 連続するタブおよび半角スペースは、1つの半角スペースで置き換えられています。
(9) 空行およびスペース、タブのみから構成される行は削除されています。
11. “mecab”文書データ
~~~~~~~~~~~~~~~~~~~~~~~
“cooked”文書データを日本語形態素解析ツールMeCabで解析した文書データ
です。
文書データを格納するディレクトリの階層構造は、“raw”文書データと同一です。
各ページデータのファイル名は、文書ID、すなわちサイトIDとページIDを「_」で
つなげ、「.mecab」の拡張子をつけたものになっています。
(例:0000001_0000001.mecab)
例えば、サイトID:1234567、ページID:0000123 の“mecab”文書データは、
mecab/123/45xx/1234567/000/01xx/1234567_0000123.mecab
に格納されています。