NTCIR Project
NTCIR-6 OPINION(意見分析パイロットタスクテストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-6 OPINION (意見分析パイロットタスクテストコレクション)



コレクションは、文書データ(毎日新聞記事データ1998-2001(日本語)、読売新聞記事データ1998-2001(日本語)、CIRB020 1998-1999 + CIRB040 2000-2001(台湾の新聞各種)、毎日デイリー1998-2001(日本で発行された英文新聞)、デイリー読売2000-2001(日本で発行された英文新聞)、Korea Times 2000-2001(韓国の英文新聞) Hong Kong Standard 1998-1999(香港の英文新聞))、Xinhua1998-2001(中国の英字新聞)、課題(1998-2001年記事用32件。それぞれ、中日英3ヶ国語)、適合文書、意見文判定からなります。
NIIからは、研究目的では課題と適合文書と意見文判定からなる「課題データ」を配布します。文書データは NTCIR-6 CLIRでも使用しています。 日本語文書データのうち、毎日新聞記事データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。読売新聞記事データおよびDaily Yomiuri記事データは日本データベース開発株式会社から入手し、研究利用許諾を得ることができます。Xinhua記事データは Linguistic Data Consortium (LDC) 社より入手できます。中国語文書データ(CIRB020・CIRB040)、英語文書データのうち、毎日デイリーファイル(1998-1999)・Korea Times(200-2001)・Hong Kong Standard (1998-1999)は、研究目的使用で利用可能です。 検索実験に使用できる課題と正解判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。

コレクション タスク 文書データ タスク データ
ジャンル ファイル名 言語 年度 文書数 サイズ 課題 適合文書 意見文判定  
言語 # 文書数 文の数 意見性 ホルダ 課題への適合性 極性
NTCIR-6 Opinion 意見文検索 新聞記事
CIRB020 Ct 1998-1999 249,508 788MB CtJE 32 843 11,907 すべての文についてY/N 意見性を持つ文についてその主体を文字列で記述 すべての文についてY/N 意見性を持つ文についてPOS/NEG/NEUの3値で判定
CIRB040 2000-2001 901,446
mainichi J 1998-2001 419,759 776MB 490 15,279
yomiuri 1,034,699
mainichi daily E 1998-2001 24,878 471.5MB 439 8,356
daily yomiuri 2000-2001 17,741
Korea Times 2000-2001 30,530
Hong Kong Standard 1998-1999 96,856
Xinhua 1998-2001 406,792 229MB

黄色: NIIからデータ提供可能, 灰色: NTCIRワークショップの当該タスク参加者にはNIIから提供,参加者以外は他機関からデータ入手可能

J: 日本語, E: 英語, C: 中国語 (Ct: 繁体字, Cs: 簡体字)

Mainichi、Yomiuri、daily yomiuri、Xinhuaは各機関から入手可能
・ワークショップ参加者以外の新規申込の方は研究目的用CD-読売新聞記事データを日本データベース開発(株)より購入できます。購入した記事データを、NTCIRテストコレクション用文書データとして使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。            

・ワークショップ参加者以外の新規申込の方は研究目的用CD-毎日新聞記事データを日外アソシエーツ(株)および毎日新聞社より購入できます。海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。         

・Xinhuaは Linguistic Data Consortium (LDC) 社より入手できます。NIIによる利用承認の後、LDC送付用覚書のダウンロード方法についてご連絡いたします。詳しい手続きについては、下記のURLをご参照ください。
http://research.nii.ac.jp/ntcir/permission/ntcir-6/ntcir6xinhua-research.html



  文書データ

CIRB020
Chinese news articles published in Taiwan ROC in the years of 1998-1999. The language is Traditional Chinese. It contains the document records from: United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, and Star News. It was used as part of NTCIR-3 CLIR 98 Document Collections. It is also available for the non-participant for the research purpose use from NII.
Mainichi Newspaper
Japanese news articles published in Japan in the years of 1998-2001. It contains the document records extracted from Mainichi Newspaper Full-Text Article Database CD-ROMs. It was used as part of NTCIR-3 CLIR 1998-SubCollection, NTCIR-3 QA and NTCIR-3 SUMM. It is also used for NTCIR-4 CLIR, NTCIR-4 QA and NTCIR-4 SUMM. It is available from the NII for the NTCIR Workshop participants free of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop and for the purpose of research related to the tasks. For the non-participants, Mainichi Newspaper Full-Text Article Database CD-ROMs are available for research purpose use from Mainichi Newspaper Co. and the document records in the CD-ROMs shall be converted into the NTCIR standard record format by the script mai2.pl.
Yomiuri Newspaper
Japanese news articles published in Japan in the years of 1998-2001. It contains the document records extracted from Yomiuri Newspaper Japanese Article Data. It is new data for NTCIR. It is used for NTCIR-4 QA and NTCIR-4 SUMM. It is available from the NII for the NTCIR Workshop participants free of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop and for the purpose of research related to the tasks. For the non-participants, Yomiuri Newspaper Japanese Article Data is available for research purpose use from Nihon Database Kaihatsu Co. Ltd. and the document records in the Data shall be converted into the NTCIR standard record format by the script yomi2ntcir.pl.
Mainichi Daily News
English articles published in Japan in the years of 1998-2001. It contains the document records from: Mainichi Daily News. It was used as part of NTCIR-3 CLIR 1998-SubCollection. It is also available for the non-participant for the research purpose use from NII.
Korea Times
English news articles published in Korea in the years of 2000-2001. It contains the document records from: Korean Times. It is new data for NTCIR. It is also available for the non-participant for the research purpose use from NII.
Hong Kong Standard
English news articles published in Hong Kong, China PRC in the years of 1998-1999. It contains the document records from: Hong Kong Standard. It is new data for NTCIR. It is also available for the non-participant for the research purpose use from NII.
Xinhua News Service
English news articles published in China PRC in the years of 1998-2001. It contains the document records from: Xinhua News Service file from LDC2006E106 NTCIR Opinion Annotation Pilot Task Evaluation Corpus For research purposes . It is new data for NTCIR. It is available from the Linguistic Data Consortium (LDC) for the NTCIR Workshop participants free of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop and for the purpose of research related to the tasks. For the non-participants, LDC2006E106 NTCIR Opinion Annotation Pilot Task Evaluation Corpus For research purposes is available for research purpose use from the LDC and the document records in the Corpus shall be converted into the NTCIR standard record format by the script xinhua2ntcir.pl.

 

   タスクデータは、課題(1998-2001年記事用32件、中日英3カ国語)と適合文書と意見文判定からなります。これらをNIIからは「課題データ」として配布します。検索実験に使用できる課題と適合文書と意見文判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。

入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

※Xinhuaの入手方法については、下記のURLをご参照ください。
http://research.nii.ac.jp/ntcir/permission/ntcir-6/ntcir6xinhua-research.html

必要提出書類 

テストコレクション利用申込書 [txt]
テストコレクション利用許諾に関する覚書 [PDF]


Reference

Task Overview of NTCIR-6OPINION
An Overview of NTCIR-6OPINION

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所  NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項 ---テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。