情報検索システム評価用テストコレクション構築プロジェクト リンクお問合せNII
NTCIR HOMEへ

サイト内検索

HOME
NTCIRとは
・ワークショップ
NTCIR-11
NTCIR-10
NTCIR-9
NTCIR-8
NTCIR-7
NTCIR-6
NTCIR-5
NTCIR-4
NTCIR-3
NTCIR-2
NTCIR-1
データ/ツール
出版物/会議論文集
関連サイト
メイリングリスト
よくあるお問合せ
お問合せ
プライバシーについて
NTCIR CMS HOME


テストコレクション提出結果アーカイブツール利用手続き・覚書テストコレクション詳細一覧

NTCIR Project

テストコレクション詳細一覧

[English]
分類 コレクション タスク 文書データ タスクデータ
ジャンル ファイル名 言語
年度 文書数 サイズ:
非圧縮
(圧縮)
課題/質問 適合判定
言語 #
ACLIA Advanced Cross-Lingual Information Access(高度言語横断情報アクセス)は、Complex Cross-Lingual Question Answering Task(複合的言語横断質問応答タスク)とInformation Retrieval for QA Task(質問応答向け情報検索タスク)を組み合わせたものです。詳細は、CLIR on News, QAの欄をご覧ください。
CCLQA Complex Cross-Lingual Question Answering(複合的言語横断質問応答)に関する詳細は、QAの欄をご覧ください。
CLIR on Scientific NTCIR
-1
IR 学術文献抄録 ntc1-je(A) JE 1988-
1997
339,483 577MB J 83 3
段階
ntc1-j(A) J 332,918 312MB
ntc1-e(A) E 187,080 218MB 60
TE*5 ntc1-tmrc(A) J 2,000 - - -
NTCIR
-2
IR 学術文献抄録 ntc2-j(A) J 1986-
1999
*2
400,248 600MB E
J
49 4
段階
ntc2-e(A) E 134,978 200MB
CLIR on News CIRB
010
IR 新聞 CIRB010(C) Ct 1998-
1999
132,220 132MB Ct
E
50
*11
4
段階
NTCIR
-3 CLIR
IR 新聞記事 KEIB010(C) K 1994 66,146 74MB Ct
E
J
K
30
*11
4
段階
CIRB011(C) Ct 1998-
1999
132,173 870MB - Ct
E
J
K
50
*11
4
段階
CIRB020(A) 249,508 (246MB)
EIRB010(C) E 10,204 -
Mainichi Daily(A) 12,723 (12.9MB)
Mainichi(B) J 220,078 -
NTCIR
-4 CLIR
IR 新聞記事 CIRB011(C) Ct 1998-
1999
132,173 ca.3GB - Ct
E
J
K
60
*11
4
段階
CIRB020(A) 249,203 (246MB)
EIRB010(C) E 10,204 -
Mainichi Daily(A) 12,723 (12.9 MB)
Korea Times(A) 19,599 (20.4 MB)
Hong Kong Standard(A) 96,683 -
Xinhua(B) 208,167 -
Mainichi(B) J 220,078 -
Yomiuri(B) 373,558 -
Hankookilbo(A) K 149,921 (93.5 MB)
Chosenilbo(A) 104,517 (75.4 MB)
NTCIR
-5 CLIR
IR 新聞記事 CIRB040r(A) Ct 2000-
2001
901,446 582 MB
(581.7MB)
Ct
E
J
K
50
*11
4
段階
Mainichi Daily(A) E 12,155 9.9MB
(9.9MB)
Korea Times(A) 30,530 25.3MB
(25.3MB)
Daily Yomiuri(B) 17,741 22.9MB
Xinhua(B) 198,624 -
Mainichi(B) J 199,681 118.8MB
Yomiuri(B) 658,719 343.3MB
Hankookilbo(A) K 85,250 52.1MB
(52.1MB)
Chosenilbo(A) 135,124 88.7MB
(88.7MB)
NTCIR
-6 CLIR
IR 新聞記事 CIRB040r(A) Ct 2000-
2001
901,446 582 MB
(581.7MB)
Ct
E
J
K
50
(selected
from NTCIR-3,4)

*11
4
段階
Mainichi(B) J 199,681 118.8MB
Yomiuri(B) 658,719 343.3MB
Hankookilbo(A) K 85,250 52.1MB
(52.1MB)
Chosenilbo(A) 135,124 88.7MB
(88.7MB)
NTCIR
-7
ACLIA

(IR
for QA)
IR 新聞記事 Lianhe Zaobao (A) Cs 1998-
2001
249,287 411 MB
(229.8MB)
C
E
J
CS-CS: 97
CT-CT: 95
EN-CS: 97
EN-CT: 95
EN-JA: 98
JA-JA: 98
3
段階
Xinhua Chinese(B) 295,875 511 MB
CIRB020(A) Ct 1998-
1999
249,508 320 MB
(246MB)
CIRB040r(A) 2000-
2001
901,446 582 MB
(581.7MB)
Mainichi(B) J 1998-
2001
419,759 544 MB
NTCIR
-8
ACLIA

(IR
for QA)
IR 新聞記事 Xinhua Chinese(B) Cs 2002-
2005
308,845 516MB
(210MB)
C
E
J
100 for each language pair
*11
3
段階
UDN(A) Ct 1,663,517 1999MB
(1035MB)
Mainichi(B) J 377,941 678MB
(244MB)
CLQA Cross-Lingual QA(言語横断質問応答)に関する詳細は、QAの欄をご覧ください。
CQA NTCIR
-8 CQA
answer quality ranking QA site on Web Yahoo!Q&A
corpus
(Chiebukuro)
(A)
J Apr.
2004
to Oct.
2005
解決済みの質問: 3,116,009 ca. 916MB J 質問: 1500 2段階
および4段階
ベストアンサー: 3,116,008 ca. 935MB 回答: 7443 ベストアンサー: 1500
その他の回答: 10,361,777 ca. 2.3GB それ以外の回答: 5943
GeoTime NTCIR
-8
GeoTime
IE/
analysis
新聞記事 New York Times(B) E 2002-
2005
315,417 1570MB J
E
25 -
Mainichi(B) J 377,941 678MB
(244MB)
-
IR4QA Information Retrieval for QA(質問応答向け情報検索)に関する詳細は、CLIR on Newsの欄をご覧ください。
MOAT Multilingual Opinion Analysis (多言語意見分析)に関する詳細は、OPINIONの欄をご覧ください。
MuST NTCIR
-6
MuST
IE/
analysis
新聞記事 Mainichi(B) J 1998-
1999
220,078 260MB J 27 581
*9
-
NTCIR
-7
MuST
IE/
analysis
新聞記事 Mainichi(B) J 1998-
2001
419,759 535MB J 25
(8topics)
701
*9
-
OPINION NTCIR
-6 OPINION
IE/
analysis
新聞記事 CIRB020(A) Ct 1998-
1999
249,508 788MB (246MB) Ct
E
J
32
(selected
from NTCIR
-3,-4,-5 CLIR)
843
*8
2
types,
3
metrics
CIRB040r(A) 2000-
2001
901,446 (581.7MB)
Daily Yomiuri(B) E 2000-
2001
17,741 471.5MB - 439
*8
Mainichi Daily(A) 1998-
2001
24,878 (22.8MB)
Korea Times(A) 2000-
2001
30,530 (45.7MB)
Hong Kong Standard(A) 1998-
1999
96,856 -
Xinhua(B) 1998-
2001
406,791 299MB
Mainichi(B) J 1998-
2001
419,759 766MB 490
*8
Yomiuri(B) 1,034,699
NTCIR
-7
MOAT
IE/
analysis
新聞記事 Xinhua Chinese(B) Cs 1998-
2001
295,875 511 MB Cs 16 271
*10
2
types,
3
metrics
Lianhe Zaobao(A) 249,287 230MB
(229.8MB)
CIRB020(A) Ct 1998-
1999
249,508 320 MB
(246MB)
Ct 17 246
*10
CIRB040r(A) 2000-
2001
901,446 582 MB
(581.7MB)
Mainichi Daily(A) E 1998-
2001
24,878 22.8MB
(22.8MB)
E 17 167
*10
Korea Times(A) 50,129 45.7MB
(45.7MB)
Hong Kong Standard(A) 1998-
1999
96,683 252MB
Xinhua(B) 1998-
2001
406,791 229MB
Straits Times(A) - 250MB
(249.8MB)
Mainichi(B) J 419,759 544 MB J 22 287
*10
NTCIR
-8
MOAT
IE/
analysis
新聞記事 Xinhua Chinese(B) Cs 2002-
2005
308,845 516MB
(210MB)
Cs 19 385
*12
2 types,
3 metrics
UDN(A) Ct 1,663,517 1999MB
(1035MB)
Ct 20 775
*12
New York Times(B) E 315,417 1570MB E 20 138
*12
Mainichi(B) J 377,941 678MB
(244MB)
J 20 170
*12
Patent NTCIR
-3 PATENT
IR 特許全文 kkh(A) *3 J 1998-
1999
697,262 18GB Ct
Cs
K
J
E
31 3
段階
特許抄録 jsh(A) *3 1995-
1999
1,706,154 1,883MB
paj (A)*3 E 1,701,339 2,711MB
NTCIR
-4 PATENT
IR 特許全文 Publication of unexamined patent application(A) J 1993-
1997
ca.
1,700,000
ca.45GB E Main:34,
Add:69
3
段階
特許抄録 Patent Abstracts of Japan(PAJ)(A) E 1993-
1997
ca.
1,700,000
ca2.2GB
NTCIR
-5 PATENT
IR/
classi
fication
特許全文 Publication of unexamined patent application(A) J 1993-
2002
3,496,252 94.5GB J
E
34+1189
in NRCIR-5,
added
349+1681
in NTCIR-6
3
段階
特許抄録 Patent Abstracts of Japan(PAJ)(A) E 1993-
2002
3,496,252 ca.5GB
NTCIR
-6 PATENT
IR/
classi
fication
特許全文 Patent grant data published by USPTO(A) E 1993-
2002
1,315,470 52.6GB E 3221 3
段階
Publication of unexamined patent application(A) J 1993-
2002
3,496,252 94.5GB J

Japanese Retrieval:
2,908

Classification:
21,606

4
段階
特許抄録 Patent Abstracts of Japan(PAJ)(A) E 1993-
2002
3,496,252 ca.5GB E 1
段階
Patent Mining NTCIR
-7
PATMN
Mining 特許全文 Patent grant data published byUSPTO (A) E 1993-
2002
1,315,470 52.6GB EJ
英語/言語横断 (J2E):
976
2
段階
Publication of unexamined patent application(A) J 1993-
2002
3,496,252 94.5GB
特許抄録 Patent Abstracts of Japan(PAJ)(A) E 1993-
2002
3,496,252 ca.5GB
学術文献抄録 ntc1-je(A) JE 1988-
1997
339,483 577MB 日本語/ 言語横断 (E2J):
976
ntc1-j(A) J 332,918 312MB
ntc1-e(A) E 187,080 218MB
学術文献抄録 ntc2-j(A) J 1986-
1999
*2
400,248 600MB
ntc2-e(A) E 134,978 200MB
NTCIR
-8
PATMN
Mining 特許全文 Patent grant data published byUSPTO (A) E 1993-
2002
1,315,470 52.6GB J
E

学術論文 分類サブタスク:
英語:624
言語横断(J2E): 644

日本語:644
言語横断(E2J):624

1
段階
Publication of unexamined patent application(A) J 1993-
2002
3,496,252 94.5GB
Patent Abstracts of Japan(PAJ)(A) E 1993-
2002
3,496,252 ca.5GB
学術文献抄録 ntc1-je(A) JE 1988-
1997
339,483 577MB J
E

技術動向マップ 作成サブタスク:
英語:1000

日本語:1000

1
段階
ntc1-j(A) J 332,918 312MB
ntc1-e(A) E 187,080 218MB
学術文献抄録 ntc2-j(A) J 1986-
1999
*2
400,248 600MB
ntc2-e(A) E 134,978 200MB
QA NTCIR
-3 QA
QA 新聞記事 Mainichi(B) J 1998-
1999
220,078 260MB J *1 1200 exact answer
NTCIR
-4 QA
QA 新聞記事 Mainichi(B) J 1998-
1999
220,078 ca.
776MB
J *1 197 exact answer
199
Yomiuri(B) 373,558 251
NTCIR
-5 CLQA
QA 新聞記事 CIRB040r(A) C 2000-
2001
901,446 581.7MB
(581.7MB)
C
E
J
smpl:300,
test:200*6
3
段階
*7
Daily Yomiuri(B) E 17,741 22.9MB
Yomiuri(B) J 658,719 343.3MB
NTCIR
-5 QA
QA 新聞記事 Mainichi(B) J 2000-
2001
199,681 260MB J *1 50 series
(360Q)
graded

NTCIR
-6 CLQA
QA 新聞記事 CIRB020(A) Ct 1998-
1999
249,203 320MB
(246MB)
C
E
J
C-E/C-C/E-C/E-E:
150
J-E/J-J/E-J:
200
3
段階
*7
EIRB010(C) E 10,204 24.5MB
Mainichi Daily(A) 12,723 33.3MB
(12.9MB)
Korea Times(A) 19,599 55.8MB
(20.4MB)
Hong Kong Standard(A) 96,683 252MB
Mainichi(B) J 220,078 282MB
NTCIR
-6 QA
QA 新聞記事 Mainichi(B) J 1998-
2001
419,759 535MB J 100Q
(any kind of Q)
graded
(3
types,
4
levels)
NTCIR
-7
ACLIA

(CCLQA)
QA 新聞記事 Lianhe Zaobao (A) Cs 1998-
2001
249,287 411 MB
(229.8MB)
C
J
E
CS-CS: 100
CT-CT: 100
EN-CS: 100
EN-CT: 100
EN-JA: 100
JA-JA: 100
2段階(ナゲットの含有)
Xinhua Chinese(B) 295,875 511 MB
CIRB020(A) Ct 1998-
1999
249,508 320 MB
(246MB)
CIRB040r(A) 2000-
2001
901,446 582 MB
(581.7MB)
Mainichi(B) J 1998-
2001
419,759 544 MB
NTCIR
-8
ACLIA

(CCLQA)
QA 新聞記事 Xinhua Chinese(B) Cs 2002-
2005
308,845 516MB
(210MB)
C
J
E
100 for each language pair 2段階(ナゲットの含有)
UDN(A) Ct 1,663,517 1999MB
(1035MB)
Mainichi(B) J 377,941 678MB
(244MB)
WEB NTCIR
-3 WEB
IR Web (html/
text)
NW100G-01(A) m*4 crawled
in
2001
11,038,720 100GB J *1 47 4
段階
+
relative
NW10G-01(A) 1,445,466 10GB
NTCIR
-4 WEB
IR Web (html/
text)
NW100G-01(A) m*4 crawled
in
2001
11,038,720 100GB J *1 - 3
段階
NTCIR
-5 WEB
IR Web (html/
text)
NW1000G-04(A) m*4 crawled
in
2004
98,870,352 1.36TB J *1 269+847 3
段階

C:中国語 (Ct:繁体字  Cs: 簡体字)  E:英語 J:日本語 K:韓国語

*1: 英訳あり
*2: gakkai サブファイル: 1997-1999 kakenサブファイル: 1986-1997
*3: kkh : 未審査特許申請 jsh: 日本語抄録 paj: jsh英訳
*4: m:multiple 大部分は日本語または英語(一部他言語あり)
*5: 用語抽出/役割分析
*6: 中国語文書に対して300+200質問、日本語・英語文書に対して300+200質問
*7: Right, Unsupported, Wrong
*8: 意見情報をタグ付けした文書数 (文の数は中国語: 11,907、日本語: 15,279、英語: 8,356)
*9: 動向情報をタグ付けした文書数
*10: 意見情報をタグ付けした文書数 (文の数は中国語(繁体字): 6,174、中国語(簡体字): 5,301、日本語: 7,163、英語: 4,711)
*11: 該当する適合文書が十分存在しないため、フォーマルランではいくつかのトピックを除外
*12: 意見情報をタグ付けした文書数 (文の数は中国語(繁体字): 9,524、中国語(簡体字): 4,492、日本語: 6,670、英語: 6,165)


[Return to Top]

NTCIR テストコレクション : Patent Translation

コレクション タスク 文書データ タスクデータ
ジャンル ファイル名 言語 年度 文書数 サイズ 課題デ−タ 訓練データ 適合判定
言語 # 言語 #
NTCIR
-7
PATMT
MT 特許全文 Patent grant data published byUSPTO (A) E 1993-
2002
1,315,470 52.6GB E Intrinsic
1381文
*1
J
E
1,798,571
文対
-
J Intrinsic
1381文
*2
-
Publication of unexamined patent application(A) J 1993-
2002
3,496,252 94.5GB
E Extrinsic
124請求項
3
段階
NTCIR
-8
PATMT
MT
(Translation Subtask)
特許全文 Publication of unexamined patent application(A) J 1993-
2007
5,253,613 165.0GB E Intrinsic: 1119 文
*3
J
E
3,186,284
文対
-
J Intrinsic 1251文
*4
-
Patent grant data published by USPTO(A) E 1993-
2007
2,124,370 120.6GB
E Extrinsic:
91請求項
3
段階
MT
(Evaluation
Subtask)
- - - - - - JE 原文データ(J):
100文
参照訳データ(E):100文
機械訳データ(E):
100文×12システム
人手評価データ (adequacy):
100文×12システム×3人
人手評価データ (fluency):
100文×12システム×3人

*5
JE 原文データ(J):
100文
参照訳データ(E):100文
機械訳データ(E):
100文×11システム
人手評価データ (adequacy):
100文×11システム×3人
人手評価データ (fluency):
100文×11システム×3人
-
E:英語 J:日本語

*1: 参照訳(J):1381文, 人手判定: 100文 ×5システム ×3判定者
*2: 参照訳(E): 1381文+300文×2 判定者, 人手判定: 100文 ×15システム ×3判定者
*3: 参照訳(J):1119文
*4: 参照訳(E):1251文+300文×3 翻訳者
*5: 追加参照訳 (E): 100文×3人

NTCIR テストコレクション : Summarization

コレクション タスク 文書データ 要約データ
ジャンル ファイル名 言語 年度 文書数 types analysts total#
NTCIR-2 SUMM 単一文書 新聞記事 Mainichi(B) J 1994.1995.1998 180 doc 7 3 3780
NTCIR-2 TAO*1 Mainichi(B) 1998 1000 doc 2 1 2000
NTCIR-3 SUMM Mainichi(B) 1998-1999 60 docs 7 3 1260
複数文書 50 sets 2 3 300

J:日本語

*1: 現在配布を中止しています。配布が可能になるようでしたら、NTCIRより e-mail にてお知らせします。  
(お知らせを希望される方は、NTCIR mailing list (「NTCIR一般メイリングリスト」)にご登録ください
.)

(A) NIIから研究目的でデータ提供
(B) NTCIRワークショップの当該タスク参加者にはNIIから提供
参加者以外は研究目的で他の機関から入手可能参加者のみデータ提供
(C) NTCIRワークショップ参加者のみデータ提供

Last modified : 2011-06-26
ntc-admin