[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-7 MOAT (多言語意見分析テストコレクション)
NTCIR-7 MOATテストコレクションは日本語(J)・英語(E)・中国語簡体字(Cs)・繁体字(Ct)に関する多言語意見分析(multi-lingual opinion analysis:MOAT)についての以下のような実験に使用することができます。
- 意見性判定
- 極性(肯定・否定・中立)判定
- 意見保有者の抽出
- 意見対象の抽出
- 適合性判定
検索対象となる文書は、日本語・英語・中国語(簡体字・繁体字)で書かれた新聞記事の検索課題に対する適合文書です。これらの新聞記事はアジア地域で1998年から2001年に発行されたものです。テストコレクションにはまた、これらの言語での検索課題および上記の意見情報についての3人の判定者による判定情報と評価用のスクリプトが含まれています。
コレクション |
タスク |
文書データ |
タスク データ |
ジャンル |
ファイル名 |
言語 |
年度 |
文書数 |
サイズ |
検索課題 |
適合文書数 |
文数 |
意見単位数 |
意見情報判定 |
言語 |
課題数 |
意見性 |
極性 |
保有者 |
対象 |
適合性 |
NTCIR-7 MOAT |
意見分析 |
新聞記事 |
Mainichi Newspaper |
JA |
1998-2001 |
419,759 |
544 MB |
JA |
22 |
287 |
7,163 |
7,569 |
すべての文についてY/N |
意見性を持つ単位についてPOS/NEG/NEUの3値で判定 |
意見性を持つ単位についてその主体を文字列で記述 |
意見性を持つ単位についてその対象を文字列で記述 |
意見性を持つ文についてY/N |
CIRB020 |
Ct |
1998-1999 |
249,508 |
320 MB |
Ct |
17 |
246 |
6,174 |
6,176 |
CIRB040 |
Ct |
2000-2001 |
901,446 |
581.7MB |
Xinhua Chinese (from LDC) |
Cs |
1998-2001 |
295,875 |
511 MB |
Cs |
16 |
271 |
5,301 |
7,523 |
Lianhe Zaobao |
Cs |
1998-2001 |
249,287 |
230 MB |
Mainichi Daily |
EN |
1998-2001 |
24,878 |
22.8MB |
EN |
17 |
167 |
4,711 |
4,733 |
Korea Times |
EN |
1998-2001 |
50,129 |
45.7MB |
Hong Kong Standard |
EN |
1998-1999 |
96,683 |
252MB |
Xinhua English (from LDC) |
EN |
1998-2001 |
406,791 |
229MB |
Straits Times(A) |
EN |
1998-2001 |
- |
250MB |
J:
日本語, E: 英語, C: 中国語 (Ct: 繁体字, Cs: 簡体字)
|
NIIからデータ提供可能 |
|
検索課題に対する適合文書のみ、NIIからデータ提供可能、1998-2001の文書データ全体については、参加者以外は他機関からデータ入手可能 |
|
NTCIRワークショップの当該タスク参加者にはNIIから提供,参加者以外は他機関からデータ入手可能 |
|
NTCIR-7 MOATテストコレクションは、NIIから入手可能なタスクデータに含まれる、毎日新聞記事データから選択され、意見に関するタグを付与した適合文書のみでも利用できます。
ただし、文書データなしにMOAT テストコレクションを利用する場合には、あらかじめオーガナイザが選択した適合文書だけを利用するということになります。
これはすなわち、大量のニュース文書からある話題に関連した意見を検索するという現実的な問題を解決する上で重要な、情報検索を実現する前処理モジュールの部分を無視することになります。
したがいまして、もし大量の文書群から、話題に適合した意見を検索(抽出)する実験を行いたいのであれば、1998-2001の毎日新聞記事データ全体を入手する全文書データも入手する必要があります。
ワークショップ参加者以外の新規申込の方は研究目的用CD-毎日新聞記事データを日外アソシエーツ(株)および毎日新聞社より購入できます。
海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.
購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
|
|
Xinhua ChineseおよびXinhua Englishは、Linguistic Data Consortium (LDC) 社より入手できます。
NIIによる利用承認の後、LDC送付用覚書のダウンロード方法についてご連絡いたします。詳しい手続きについては、下記のURLをご参照ください。
http://research.nii.ac.jp/ntcir/permission/ntcir-7/ntcir7xinhua-research.html
|
- Mainichi Newspaper
- Japanese news articles published in Japan in the years of 1998-2001. It contains
the document records extracted from Mainichi
Newspaper Full-Text Article Database CD-ROMs. It is available from the NII for the NTCIR Workshop participants free
of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop
and for the purpose of research related to the tasks. For the non-participants,
Mainichi Newspaper Full-Text Article Database CD-ROMs
are available for research purpose use from Mainichi Newspaper Co. and
the document records in the CD-ROMs shall be converted into the NTCIR standard
record format by the script mai2.pl.
- CIRB020
- Traditional Chinese news articles published in Taiwan ROC in the years of 1998-1999. It
contains the document records from:
United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, and
Star News. It is also available for the non-participant for the research purpose
use from NII.
- CIRB040
- Traditional Chinese news articles published in Taiwan ROC in the years of 2000-2001. It
contains the document records from:
United Daily News, Economic Daily News, Min Sheng Daily, and United Express. It is also available for the non-participant for the research purpose
use from NII.
- Lianhe Zaobao
- Simplified Chinese news articles.
- Xinhua News Service (Chinese)
- Simplified Chinese news articles published in China PRC in the years of 1998-2001. It contains
the document records from: Xinhua News Service file from LDC2008E48 NTCIR Multilingual Opinion Annotation Task Evaluation Corpus For research purposes. It is available from the Linguistic Data Consortium (LDC) only for purposes of Opinion Analysis research, including the NTCIR-7
Multilingual Opinion Analysis Task.
- Xinhua News Service (English)
- English news articles published in China PRC in the years of 1998-2001. It contains
the document records from: Xinhua News Service file from LDC2006E106 and LDC2006E108 NTCIR Opinion Annotation Pilot
Task Evaluation Corpus For research purposes . It is available from the Linguistic Data Consortium (LDC) only for purposes of Opinion Analysis research, including the NTCIR-7
Multilingual Opinion Analysis Task.
- Mainichi Daily News
- English articles published in Japan in the years of 1998-2001. It contains the
document records from: Mainichi Daily News. It is also available for the non-participant for the research purpose
use from NII.
- Korea Times
- English news articles published in Korea in the years of 1998-2001. It contains
the document records from: Korean Times. It is also available for the non-participant for the research
purpose use from NII.
- Hong Kong Standard
- English news articles published in Hong Kong, China PRC in the years
of 1998-1999. It contains the document records from: Hong Kong Standard. It is also available for the non-participant for the research
purpose use from NII.
- Straits Times
- English news articles published in Singapore in the years of 1998-2001. It contains
the document records from: the Straits Times. It is also available for the non-participant for the research
purpose use from NII.
タスクデータは、課題(1998-2001年記事用約20件、日英中(簡体字・繁体字)4カ国語)と適合文書と意見情報判定からなります。これらをNIIからは「課題データ」として配布します。検索実験に使用できる課題と適合文書と意見情報判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。
お申込み
--- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
- まず、必要なテストコレクションの「テストコレクション利用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
- その後、利用許諾に関する「覚書」をメールで送付しますので、各テストコレクションにつき2部、両面印刷で出力し、必要事項を記入し、署名および押印を
して、以下の送付先に郵送してください。
NII側の押印後、テストコレクションの利用許諾を示すものとして1部を利用申込者にお送りし、1部をNIIで保管します。
必要提出書類
- テストコレクション利用申込書 [txt]
テストコレクション利用許諾に関する覚書 (メールで送付します)
Reference
- Overview of Multilingual Opinion Analysis Task at NTCIR-7
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所 NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。