NTCIR-6 OPINION (意見分析パイロットタスクテストコレクション)
コレクションは、文書データ(毎日新聞記事データ1998-2001(日本語)、読売新聞記事データ1998-2001(日本語)、CIRB020 1998-1999
+ CIRB040 2000-2001(台湾の新聞各種)、毎日デイリー1998-2001(日本で発行された英文新聞)、デイリー読売2000-2001(日本で発行された英文新聞)、Korea
Times 2000-2001(韓国の英文新聞) Hong Kong Standard 1998-1999(香港の英文新聞))、Xinhua1998-2001(中国の英字新聞)、課題(1998-2001年記事用32件。それぞれ、中日英3ヶ国語)、適合文書、意見文判定からなります。
NIIからは、研究目的では課題と適合文書と意見文判定からなる「課題データ」を配布します。文書データは NTCIR-6 CLIRでも使用しています。 日本語文書データのうち、毎日新聞記事データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。読売新聞記事データおよびDaily Yomiuri記事データは日本データベース開発株式会社から入手し、研究利用許諾を得ることができます。Xinhua記事データは Linguistic Data Consortium (LDC) 社より入手できます。中国語文書データ(CIRB020・CIRB040)、英語文書データのうち、毎日デイリーファイル(1998-1999)・Korea
Times(200-2001)・Hong Kong Standard (1998-1999)は、研究目的使用で利用可能です。 検索実験に使用できる課題と正解判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。
コレクション |
タスク |
文書データ |
タスク データ |
ジャンル |
ファイル名 |
言語 |
年度 |
文書数 |
サイズ |
課題 |
適合文書 |
意見文判定 |
言語 |
# |
文書数 |
文の数 |
意見性 |
ホルダ |
課題への適合性 |
極性 |
Opinion |
意見文検索 |
新聞記事 |
CIRB020 |
Ct |
1998-1999 |
249,508 |
788MB |
CtJE |
32 |
843 |
11,907 |
すべての文についてY/N |
意見性を持つ文についてその主体を文字列で記述 |
すべての文についてY/N |
意見性を持つ文についてPOS/NEG/NEUの3値で判定 |
CIRB040 |
2000-2001 |
901,446 |
mainichi |
J |
1998-2001 |
419,759 |
776MB |
490 |
15,279 |
yomiuri |
1,034,699 |
mainichi daily |
E |
1998-2001 |
24,878 |
471.5MB |
439 |
8,356 |
daily yomiuri |
2000-2001 |
17,741 |
Korea Times |
2000-2001 |
30,530 |
Hong Kong Standard |
1998-1999 |
96,856 |
Xinhua |
1998-2001 |
406,792 |
229MB |
黄色: NIIからデータ提供可能, 灰色: NTCIRワークショップの当該タスク参加者にはNIIから提供,参加者以外は他機関からデータ入手可能
日本語, E: 英語, C: 中国語 (Ct: 繁体字, Cs: 簡体字)
Mainichi、Yomiuri、daily yomiuri、Xinhuaは各機関から入手可能
・Xinhuaは Linguistic Data Consortium (LDC) 社より入手できます。NIIによる利用承認の後、LDC送付用覚書のダウンロード方法についてご連絡いたします。詳しい手続きについては、下記のURLをご参照ください。
- CIRB020
- Chinese news articles published in Taiwan ROC in the years of 1998-1999. The language is Traditional Chinese. It
contains the document records from:
United Daily News, Economic Daily News, Min Sheng Daily, United Evening News, and
Star News. It was used as part of NTCIR-3 CLIR 98 Document
Collections. It is also available for the non-participant for the research purpose
use from NII.
- Mainichi Newspaper
- Japanese news articles published in Japan in the years of 1998-2001. It contains
the document records extracted from Mainichi
Newspaper Full-Text Article Database CD-ROMs. It was used as part of
NTCIR-3 CLIR 1998-SubCollection, NTCIR-3 QA and NTCIR-3 SUMM. It
is also used for NTCIR-4 CLIR, NTCIR-4 QA and NTCIR-4
SUMM. It is available from the NII for the NTCIR Workshop participants free
of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop
and for the purpose of research related to the tasks. For the non-participants,
Mainichi Newspaper Full-Text Article Database CD-ROMs
are available for research purpose use from Mainichi Newspaper Co. and
the document records in the CD-ROMs shall be converted into the NTCIR standard
record format by the script mai2.pl.
- Yomiuri Newspaper
- Japanese news articles published in Japan in the years of 1998-2001. It
contains the document records extracted from Yomiuri Newspaper Japanese
Article Data. It is new data for NTCIR. It is used for NTCIR-4
QA and NTCIR-4 SUMM. It is available from the NII for the NTCIR Workshop participants free
of charge for the purpose of accomplishing tasks set out in the NTCIR Workshop
and for the purpose of research related to the tasks. For the non-participants,
Yomiuri Newspaper Japanese Article Data
is available for research purpose use from Nihon Database Kaihatsu Co.
Ltd. and the document records in the Data shall be converted into the NTCIR
standard record format by the script yomi2ntcir.pl.
- Mainichi Daily News
- English articles published in Japan in the years of 1998-2001. It contains the
document records from: Mainichi Daily News. It was used as
part of NTCIR-3 CLIR 1998-SubCollection. It is also available for the non-participant for the research purpose
use from NII.
- Korea Times
- English news articles published in Korea in the years of 2000-2001. It contains
the document records from: Korean Times. It is new
data for NTCIR. It is also available for the non-participant for the research
purpose use from NII.
- Hong Kong Standard
- English news articles published in Hong Kong, China PRC in the years
of 1998-1999. It contains the document records from: Hong Kong Standard.
It is new data for NTCIR. It is also available for the non-participant for the research
purpose use from NII.
- Xinhua News Service
- English news articles published in China PRC in the years of 1998-2001. It contains
the document records from: Xinhua News Service file from LDC2006E106 NTCIR Opinion Annotation Pilot
Task Evaluation Corpus For research purposes . It is new data
for NTCIR. It is available from the Linguistic Data Consortium (LDC) for the NTCIR Workshop participants free of charge for the purpose of
accomplishing tasks set out in the NTCIR Workshop and for the purpose of
research related to the tasks. For the non-participants, LDC2006E106 NTCIR Opinion Annotation Pilot Task Evaluation Corpus For research
purposes is available for research purpose use from the LDC and the
document records in the Corpus shall be converted into the NTCIR standard record
format by the script xinhua2ntcir.pl.
--- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
- まず、必要なテストコレクションの「テストコレクション利用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。
- その後、利用許諾に関する「覚書」をメールで送付しますので、各テストコレクションにつき2部、両面印刷で出力し、必要事項を記入し、署名および押印を
- テストコレクション利用申込書 [txt]
テストコレクション利用許諾に関する覚書 (メールで送付します)
- Task Overview of NTCIR-6OPINION
An Overview of NTCIR-6OPINION
「覚書」送付先 ---
国立情報学研究所 NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで利用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での利用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に利用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って利用してください。