NTCIR-7 MuST (「動向情報の要約と可視化」テストコレクション)
NTCIR-7 MuSTテストコレクションは、動向情報の要約と可視化(マルチモーダル要約)とその要素技術である要約、情報抽出、情報可視化等の研究素材として利用す
ることができます。ここには研究の素材となるテキストだけでなく、処理の途中結果に相当する注釈等も含まれています。
動向情報のソースの役割を持つものが MuST Corpus(タグなし)です。日本語新聞記事701記事からなります。産業、経済、災害等、様々なトピックから関連する記事が選ばれています。MuST
Corpus(タグなし)を除くタスクデータは、MuST Corpus(タグなし)に対して、重要文抽出、固有表現抽出、時間処理等を施した結果に相当する注釈をおこなったもの、統計情報の値と変化に関する情報抽出の結果である
データを表形式で表現したもの、T2Nサブタスクと名付けられた情報抽出課題の課題データと正解セットからなります。
*NIIからは、研究目的では「タスクデータ」(毎日新聞記事データ1998-2001より選ばれた701記事のMuST Corpus(タグなし)を含む)を配布します。
コレクション
|
タスク
|
文書データ
|
タスク データ
|
ジャンル
|
ファイル名
|
言語
|
年度
|
文書数
|
サイズ
|
MuST Corpus |
情報抽出課題
|
正解判定
|
ファイル名 |
言語 |
文書数 |
サイズ |
言語
|
#
|
NTCIR-7
MuST
|
情報抽出・
要約・
情報可視化 |
新聞記事
|
Mainichi
(B) |
J
|
1998-
2001
|
419,759 |
535MB |
untagged
MuSTCorpus
(A) |
J |
701 |
2.9MB
|
J
|
25
(8
topics)
|
N/A
|
(A) |
-- NIIから研究利用目的でデータ提供 |
(B) |
--ワークショップ参加者以外の新規申込の方は日外アソシエーツ(株)および毎日新聞社より研究目的用CD-毎日新聞記事データが購入できます。 |
Mainichi: 毎日新聞記事データ 1998-2001
抽出の研究を行うには、NIIから入手可能なタスクデータに含まれるMuST Corpus(毎日新聞記事データ1998-2001より選ばれた701記事)のみでも、タグ付けしたものを正解データとして研究することが可能です。
ただし、1998-2001年度の新聞記事全体があれば、さらに下記のような多様な実験を行うことができます。
・そこで抽出されたパターンが全体でどのくらいの比率を占めるものかなどを調べる
・Unsupervisedな手法と組み合わせる、など
この場合、文書データとして研究目的用CD-毎日新聞記事データ集1998-2001年版を用います。文書データは、日外アソシエーツ(株)から入手し、毎日新聞社から研究利用許諾を得ることができます。海外在住者でも日本語の覚書を理解し、かつ日本円の送金が可能な方は、日外アソシエーツ(株)から購入することができます。購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
(1) MuSTCorpus
毎日新聞記事データ1998-2001より選ばれた701記事に対して、重要文抽出、固有表現抽出、時間処理等を施した結果に相当する注釈をおこなったものです。注釈仕様については、NTCIR-6の
MuST Overviewを参照下さい。
NTCIR-6 MuST Overview:
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings6/NTCIR/82.pdf
MuST Corpus(タグなし): 1998-2001年の毎日新聞記事より選ばれた701記事
ガソリン、ビール業界、地震等、トピック毎(全31トピック)に関連する文書を収集したものです。
(2) ChangeExpressions
MuST Corpusの一部である9トピック219記事に対して、統計量の値や変化に関する情報を抽出して表形式にまとめたものです。抽出仕様については、NTCIR-7の
MuST Overviewを参照下さい。
NTCIR-7 MuSTOverview:
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings7/pdf/NTCIR7/C4/01-NTCIR7-OV-MuST-KatoT.pdf
(3) T2NTestSet
T2Nサブタスクと名付けられた情報抽出課題の課題データと正解セットです。課題のサンプルを以下示します。トピック毎に抽出対象統計量と抽出対象記事が指定されます。課題の仕様及び正解セットのフォーマットはREADME_J、
T2NSpec_Jに含まれています。
<task id="MuSTT2N0101" name_j="ガソリン" name_e="Gasoline">
<stats>
<stat id="MuSTT2N010101">
<name>"レギュラーガソリンの全国平均店頭価格"</name>
<alias>"レギュラーガソリンの小売価格(1リットル当たり)"</alias>
<alias>"ガソリン価格"</alias>
<v_unit>"円"</v_unit>
</stat>
<stat id="MuSTT2N010102">
<name>"ドバイ原油価格"</name>
<alias>"原油価格"</alias>
<v_unit>"ドル"</v_unit>
</stat>
</stats>
<docs>
<doc>"000306043"</doc>
…
<doc>"001129088"</doc>
</docs>
</task>
お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
- 利用許諾に関する「覚書」をメールで送付しますので、2部、かならず両面印刷で出力し、必要事項を記入し、署名および押印を して、以下の送付先 に郵送してください。
NII側の押印後、データの利用許諾を示すものとして1部を利用申込者にお送り し、1部をNIIで保管します。
必要書類 ---
参考書類 ---
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項---
- テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、 著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要
です。そのため、利用規程等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。