NTCIR Project
NTCIR-6 MuST(「動向情報の要約と可視化」テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム][NTCIR データ home]


NTCIR-6 MuST (「動向情報の要約と可視化」テストコレクション)

[テストコレクションの概要]

NTCIR-6 MuST テストコレクションにつきましては、現在、NTCIR-7 MuST テストコレクションの一部としてご利用いただけます。NTCIR-6 MuSTテストコレクションの利用を希望される場合は、NTCIR-7 MuST テストコレクションをお申し込みの上、下記のデータをご利用ください。
・MuST Corpus、MuST Corpus(タグなし)に含まれる581記事およびそれに対して注釈をおこなったもの
(MuSTCorpusフォルダ内、list.xlsファイルに含まれるtmp.txt(2)シートの1-581(B欄に1-3と記載されているもの)が該当のデータです。)

NTCIR-6 MuSTテストコレクションの詳細につきましては、「MuST:動向情報の要約と可視化に関するワークショップ」 ホームページもご参照ください。


「動向情報の要約と可視化」テストコレクションは「文書データ」と「タスクデータ」からなります。NIIからは、研究目的では「タスクデータ」を配布します。

「タスクデータ」は、「MuST Corpus(タグなし)」「MuST Corpus」からなります。
MuST Corpus(タグなし)は、毎日新聞1998年、1999年の2年分より選ばれ、タスクデータ作成に用いた581記事です。この文書集合が動向情報の要約と可視化の元データになるという設定です。


動向情報の要約と可視化はユーザから関心が示されたトピックについてその動向を潔で平易な文章や視覚的なグラフで、もしくはそれらを協調させたマルチ メディアプレゼンテーションで答えるものですから、ユーザの関心となるトピ ックが入力となります。 MuST Corpusとして提供される情報は、27のトピックについて


がまとめられています。


MuST Corpusは、「MuST:動向情報の要約と可視化に関するワークショップ」 ホームページにおいて、研究用データセットに含まれる動向情報コーパスとして参照されているものと同一物です。トピックの一覧、注釈の仕様及びサンプル、要約参考例のサンプルについては、そちらをご参照下さい。  

*NIIからは、研究目的では「タスクデータ」(毎日新聞記事データ1998-1999より選ばれた581記事の文書セットおよびタスクセット)を配布します。

コレクション

タスク

文書データ

タスク データ

ジャンル

ファイル名

言語

年度

文書数

サイズ

検索課題

タグ付けした
文書数

言語

#

NTCIR-6 MuST

IE/analysis

新聞記事

Mainichi
(B)

J

1998

 1999 

220,078 

 260MB

J

 27

581

(A) -- NIIから研究利用目的でデータ提供
(B) --ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社より研究目的用CD-毎日新聞記事データが購入できます。


  

抽出の研究を行うには、NIIから入手可能なタスクデータに含まれる文書セット(選択された581記事)のみでも、タグ付けしたものを正解データとして研究することが可能です。
ただし、1998-1999年度の新聞記事全体があれば、さらに下記のような多様な実験を行うことができます。
・そこで抽出されたパターンが全体でどのくらいの比率を占めるものかなどを調べる
・Unsupervisedな手法と組み合わせる、など


文書データとして、研究目的用CD-毎日新聞記事データ集1998、1999年版を用います。文書データは、日外アソシエーツ(株)から入手し、毎日新聞社から研究利用許諾を得ることができます。購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。         

入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

必要書類 ---   

参考書類 ---   

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)

Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、 著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要 です。そのため、利用規程等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。