TITLE=README-j.txt DATE=1999-11-01 情報検索システム評価用テストコレクション1(NTCIR-1) README 1. ファイル構成 このCD-ROMには、以下のファイルがあります。  readme-j.pdf このファイルのPDF版 readme-j.txt このファイル readme-e.txt このファイルの英語版 agreem-j.pdf 使用許諾に関する覚書(日本語)  agreem-e.pdf 使用許諾に関する覚書(英語) tagree-j.pdf タグ付きデータコレクションの使用許諾に関する覚書(日本語) tagree-e.pdf タグ付きデータコレクションの使用許諾に関する覚書(英語) manual-j.pdf 使用説明書(日本語) manual-e.pdf 使用説明書(英語) adhoc.tgz 随時検索用の文書(日英混在)と正解判定 mlir.tgz 日本語単言語検索用の文書と正解判定 clir.tgz 言語横断検索用の文書(英語文書)と正解判定 topics.tgz 検索課題 (日本語) tmrec.tgz 用語抽出研究用のタグ付きデータコレクション *.pdfは、Adobe AcrobatReaderが必要です。 *.tgzは、tarをして、gzipしてあります。gzip -dc <ファイル名> | tar xvf - として復元してください。 *.tgzの内容と、復元したときのファイルサイズは下記のとおりです。なお、 ファイルサイズの1MB=1024 * 1024 bytesです。 (1) adhoc.tgz 随時検索用の文書(日英混在)と正解判定 復元すると adhoc/の下に以下のファイルがあります。 ntc1-je1 (576.6MB) 文書セット(JEコレクション) 日本語英語混在 rel1_ntc1-je1_0001-0030 ntc1-je1に対する検索課題0001〜0030の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-je1_0001-0030 ntc1-je1に対する検索課題0001〜0030の正解判定 (部分正解ファイル。A判定とB判定を正解とした) rel1_ntc1-je1_0031-0083 ntc1-je1に対する検索課題0031〜0083の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-je1_0031-0083 ntc1-je1に対する検索課題0031〜0083の正解判定 (部分正解ファイル。A判定とB判定を正解とした) (2) mlir.tgz 日本語単言語検索用の文書(日本語)と正解判定 復元すると mlir/の下に以下のファイルがあります。 ntc1-j1 (311.5MB) 文書セット(Jコレクション) 日本語 rel1_ntc1-j1_0001-0030 ntc1-j1に対する検索課題0001〜0030の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-j1_0001-0030 ntc1-j1に対する検索課題0001〜0030の正解判定 (部分正解ファイル。A判定とB判定を正解とした) rel1_ntc1-j1_0031-0083 ntc1-j1に対する検索課題0031〜0083の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-j1_0031-0083 ntc1-j1に対する検索課題0031〜0083の正解判定 (部分正解ファイル。A判定とB判定を正解とした) (3) clir.tgz 言語横断検索用の文書(英語)と正解判定 復元すると clir/の下に以下のファイルがあります。 ntc1-e1 (217.5MB) 文書セット(Eコレクション) 日本語英語混在 rel1_ntc1-e1_0001-0030 ntc1-e1に対する検索課題0001〜0030の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-e1_0001-0030 ntc1-e1に対する検索課題0001〜0030の正解判定 (部分正解ファイル。A判定とB判定を正解とした) rel1_ntc1-e1_0031-0083 ntc1-e1に対する検索課題0031〜0083の正解判定 (正解ファイル。A判定のみを正解とした) rel2_ntc1-e1_0031-0083 ntc1-e1に対する検索課題0031〜0083の正解判定 (部分正解ファイル。A判定とB判定を正解とした) (4) topics.tgz 検索課題 (日本語) 復元すると topics/の下に以下のファイルがあります。 topic0001-0030 検索課題0001〜0030。第1回NTCIRワークショップの訓練用 topic0031-0083 検索課題0031〜0083。第1回NTCIRワークショップの評価用 (5) tmrec.tgz 用語抽出研究用のタグ付きデータコレクション 復元すると tmrec/の下に以下のファイルがあります。 README.j このディレクトリ中のファイルの説明(日本語) README このディレクトリ中のファイルの説明(英語) README.termtagj 用語候補の選択とタグ付けに関する説明書(日本語) README.termtage 用語候補の選択とタグ付けに関する説明書(英語) ntc1-tt0 言語タグ付きデータ ntc1-tu0 言語タグなしデータ ntc1-ttg プレインテキストデータに、用語候補のタグを加えたもの ntc1-tml ntc1-ttgから、用語候補を抜き出し多少の正規化を加えたもの 2.データの形式と使用法 ・テキストファイルの文字コードはEUCです。 ・各ファイルの形式、使用法については、使用説明書(manual-e.pdf、 manual-j.pdf)を参照してください。 ・タスク、文書、検索課題番号によって、対応する正解判定ファイルが異なり ます。組み合わせを間違えないようにご留意ください。詳しくは使用説明書 の5.2節と図5-2を参照してください。 ・テストコレクション1(NTCIR-1)の利用は、テストレコレクション1の使用 許諾に関する覚え書きの範囲でのみ可能です。 3.文書についてのご注意 このコレクションの元になった「学会発表データベース」は、速報性を重視した データベースで、 レコードは、集められたまま、編集者や抄録作成者による編 集や修正をしないで、使用しています。著者抄録を使用しており、抄録作成の 専門家によって作成された抄録とは異なる内容構成のものもあります。また、 データは可能な限りオリジナルに近い形を保つという基本方針のため、また、 事実上、すべてのデータを手作業でチェックするのは不可能でもあるため、文 書データには、「エラー」が含まれていることをご了承ください。「エラー」の 中には、元のデータに含まれていたもの、入力作業時に発生し たもの、学術情 報センターでフォーマットを整える際に生じたもの、テストコレクション用にデ ータを抽出する際に生じたものなどが含まれている可能性があります。NTCIR事 務局でのエラーのチェックは、内容の修正ではなく、開始タグと終了タグの対応、 ACCN、タイトルなどの必須項目が含まれているかなどの形式面に重点をおいてい ます。なお、用語抽出研究等に使用するタグ付きデータコレクションntc1-tt0お よびタグなしデータコレクションntc1-tu0の日本語部分については手作業でデー タを修正しましたが、英語部分に付きましては時間的な問題および日本語をタス クの対象としたため、エラーの修正は形式的なチェックにとどめています。 また、NTCIR-1中の文書データは、情報検索や関連研究の研究目的使用のために、 「学会発表データベース」からその一部を抽出したものであり、網羅性に欠けるた め、情報を得るという目的で使用することはできません。 NTCIR-1を使用して生じたいかなる損失にも、NTCIRプロジェクト事務局および 学術情報センターは責任を負いません。あらかじめご了承ください。 4.問い合わせ先 NTCIR-1に関するお問い合わせは、下記にお願いいたします。 学術情報センター研究開発部 NTCIRプロジェクト Email: ntcadm@nii.ac.jp 〒112-8640 東京都文京区大塚3-29-1 Phone 03-3942-6969(直通) Fax 03-5395-7064 担当: 神門 典子(かんど のりこ)