NTCIR Project
NTCIR-7 MOAT(多言語意見分析テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-7 MOAT (多言語意見分析テストコレクション)



NTCIR-7 MOATテストコレクションは日本語(J)・英語(E)・中国語簡体字(Cs)・繁体字(Ct)に関する多言語意見分析(multi-lingual opinion analysis:MOAT)についての以下のような実験に使用することができます。

検索対象となる文書は、日本語・英語・中国語(簡体字・繁体字)で書かれた新聞記事の検索課題に対する適合文書です。これらの新聞記事はアジア地域で1998年から2001年に発行されたものです。テストコレクションにはまた、これらの言語での検索課題および上記の意見情報についての3人の判定者による判定情報と評価用のスクリプトが含まれています。

コレクション タスク 文書データ タスク データ
ジャンル ファイル名 言語 年度 文書数 サイズ 検索課題 適合文書数 文数 意見単位数 意見情報判定
言語 課題数 意見性 極性 保有者 対象 適合性
NTCIR-7 MOAT 意見分析 新聞記事 Mainichi Newspaper  JA  1998-2001 419,759 544 MB JA  22 287 7,163 7,569 すべての文についてY/N 意見性を持つ単位についてPOS/NEG/NEUの3値で判定 意見性を持つ単位についてその主体を文字列で記述 意見性を持つ単位についてその対象を文字列で記述 意見性を持つ文についてY/N
CIRB020  Ct  1998-1999 249,508 320 MB Ct  17 246 6,174 6,176
CIRB040  Ct  2000-2001 901,446 581.7MB
Xinhua Chinese (from LDC)  Cs  1998-2001 295,875 511 MB Cs  16 271 5,301 7,523
Lianhe Zaobao  Cs  1998-2001 249,287 230 MB
Mainichi Daily  EN  1998-2001 24,878 22.8MB EN  17 167 4,711 4,733
Korea Times  EN  1998-2001 50,129 45.7MB
Hong Kong Standard  EN  1998-1999 96,683 252MB
Xinhua English (from LDC)  EN  1998-2001 406,791 229MB
Straits Times(A)  EN 1998-2001 - 250MB

J: 日本語, E: 英語, C: 中国語 (Ct: 繁体字, Cs: 簡体字)

NIIからデータ提供可能
検索課題に対する適合文書のみ、NIIからデータ提供可能、1998-2001の文書データ全体については、参加者以外は他機関からデータ入手可能
NTCIRワークショップの当該タスク参加者にはNIIから提供,参加者以外は他機関からデータ入手可能

NTCIR-7 MOATテストコレクションは、NIIから入手可能なタスクデータに含まれる、毎日新聞記事データから選択され、意見に関するタグを付与した適合文書のみでも利用できます。
ただし、文書データなしにMOAT テストコレクションを利用する場合には、あらかじめオーガナイザが選択した適合文書だけを利用するということになります。
これはすなわち、大量のニュース文書からある話題に関連した意見を検索するという現実的な問題を解決する上で重要な、情報検索を実現する前処理モジュールの部分を無視することになります。
したがいまして、もし大量の文書群から、話題に適合した意見を検索(抽出)する実験を行いたいのであれば、1998-2001の毎日新聞記事データ全体を入手する全文書データも入手する必要があります。

ワークショップ参加者以外の新規申込の方は研究目的用CD-毎日新聞記事データを日外アソシエーツ(株)および毎日新聞社より購入できます。
海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.

購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
        

Xinhua ChineseおよびXinhua Englishは、Linguistic Data Consortium (LDC) 社より入手できます。
NIIによる利用承認の後、LDC送付用覚書のダウンロード方法についてご連絡いたします。詳しい手続きについては、下記のURLをご参照ください。

http://research.nii.ac.jp/ntcir/permission/ntcir-7/ntcir7xinhua-research.html



  文書データ

Mainichi Newspaper
Japanese news articles published in Japan in the years of 1998-2001. It contains the document records extracted from Mainichi Newspaper Full-Text Article Database CD-ROMs. It is available from the NII for the NTCIR Workshop participants free of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop and for the purpose of research related to the tasks. For the non-participants, Mainichi Newspaper Full-Text Article Database CD-ROMs are available for research purpose use from Mainichi Newspaper Co. and the document records in the CD-ROMs shall be converted into the NTCIR standard record format by the script mai2.pl.
CIRB020
Traditional Chinese news articles published in Taiwan ROC in the years of 1998-1999. It contains the document records from: United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, and Star News. It is also available for the non-participant for the research purpose use from NII.
CIRB040
Traditional Chinese news articles published in Taiwan ROC in the years of 2000-2001. It contains the document records from: United Daily News, Economic Daily News, Min Sheng Daily, and United Express. It is also available for the non-participant for the research purpose use from NII.
Lianhe Zaobao
Simplified Chinese news articles.
Xinhua News Service (Chinese)
Simplified Chinese news articles published in China PRC in the years of 1998-2001. It contains the document records from: Xinhua News Service file from LDC2008E48 NTCIR Multilingual Opinion Annotation Task Evaluation Corpus For research purposes. It is available from the Linguistic Data Consortium (LDC) only for purposes of Opinion Analysis research, including the NTCIR-7 Multilingual Opinion Analysis Task.
Xinhua News Service (English)
English news articles published in China PRC in the years of 1998-2001. It contains the document records from: Xinhua News Service file from LDC2006E106 and LDC2006E108 NTCIR Opinion Annotation Pilot Task Evaluation Corpus For research purposes . It is available from the Linguistic Data Consortium (LDC) only for purposes of Opinion Analysis research, including the NTCIR-7 Multilingual Opinion Analysis Task.
Mainichi Daily News
English articles published in Japan in the years of 1998-2001. It contains the document records from: Mainichi Daily News. It is also available for the non-participant for the research purpose use from NII.
Korea Times
English news articles published in Korea in the years of 1998-2001. It contains the document records from: Korean Times. It is also available for the non-participant for the research purpose use from NII.
Hong Kong Standard
English news articles published in Hong Kong, China PRC in the years of 1998-1999. It contains the document records from: Hong Kong Standard. It is also available for the non-participant for the research purpose use from NII.
Straits Times
English news articles published in Singapore in the years of 1998-2001. It contains the document records from: the Straits Times. It is also available for the non-participant for the research purpose use from NII.

 

  タスクデータは、課題(1998-2001年記事用約20件、日英中(簡体字・繁体字)4カ国語)と適合文書と意見情報判定からなります。これらをNIIからは「課題データ」として配布します。検索実験に使用できる課題と適合文書と意見情報判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。

入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

必要提出書類 

テストコレクション利用申込書 [txt]
テストコレクション利用許諾に関する覚書 [PDF]

Reference

Overview of Multilingual Opinion Analysis Task at NTCIR-7

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所  NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項 ---テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。