[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
特許情報を対象として機械翻訳を評価するためのテストコレクションです.
次のようなデータから成っています.
・日英パテントファミリーから自動抽出された約180万のモデル訓練用日英対訳データ
・自動抽出された5200対訳ペアを人手でクリーニングしたテストセット
・マルチリファレンスによる自動評価を行うために人手翻訳を行った追加の正解文
・言語横断検索によるExtrinsicな評価を行うための124の検索課題
・NTCIR-7参加チームの翻訳結果に対する人手による評価結果
評価方法には,訳質によって直接的に評価する「Intrinsic評価」と,応用によって間接的に評価する「Extrinsic評価」があります.Intrinsic評価では,特許文書中の日本語文を英語に,もしくは英語文を日本語に翻訳し,訳質を評価します.Extrinsic評価では,言語横断情報検索によって機械翻訳を評価するために,英語の検索課題を日本語に翻訳し,訳質や検索精度を評価します.文書データは,日本公開特許公報全文1993-2002年と米国特許庁特許全文1993-2002年です.いずれも図表情報は含みません.
コレクション | タスク | 文書データ | タスクデータ | ||||||||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 翻訳課題 | 参照訳 | 人手判定 | 適合判定 | 訓練データ | |||||
言語 | 件数 | 言語 | 件数 | 件数 | 言語 | 件数 | |||||||||
NTCIR-7 PATMT | MT | 特許全文 | Publication of unexamined patent applications | J | 1993- 2002 |
3,496,252 | 94.5GB | J |
Intrinsic 1381文 |
E | 1381文 + 300文 × 2判定者 |
100文 × 15システム × 3判定者 |
- | JE | 1,798,571 文対 |
E |
Intrinsic 1381文 |
J | 1381文 | 100文 × 5システム × 3判定者 |
- | ||||||||||
特許全文 | Patent grant data published from USPTO | E | 1993- 2002 |
1,315,470 | 52.6 GB | ||||||||||
E | Extrinsic 124 請求項 |
- | - | - | 3段階 |
*全データをNIIから提供します.
Publication of unexamined patent applications |
NTCIR-4 PATENT および NTCIR-5 PATENT DVD-ROM, またはファイル転送等の電子的手段による配布 NTCIR-4 PATENT: 日本公開特許公報全文1993-1997年 NTCIR-5 PATENT: 日本公開特許公報全文1998-2002年 |
Patent grant data published from USPTO |
NTCIR-6 PATENT DVD-ROM, またはファイル転送等の電子的手段による配布 NTCIR-6 PATENT:米国特許庁特許全文1993-2002年 |
日本公開特許公報全文 1993-2002
1993〜2002年に特許庁から発行された日本語の公開特許公報全文データです.
米国特許庁特許全文 1993-2002
1993〜2002年に米国特許庁から発行された特許全文データです.特許として成立した出願だけです.
(1)Intrinsic評価
訓練データは,日本公開特許公報全文1993-2000年と米国特許庁特許全文1993-2000から自動抽出した約180万件の日英対訳文データです.課題データは,日本公開特許公報全文2001-2002年と米国特許庁特許全文2001-2002年から抽出した日本語と英語の対訳文1381対です.この1381対は翻訳の正しさが人手でチェックされています. 日本語と英語のうち,一方の言語を原言語とし,もう一方の言語を目的言語とします.目的言語の文を参照訳として使うことで,BLEU(BiLingual Evaluation Understudy)等の自動評価尺度を使った評価が可能です.BLEU等による評価の客観性を高めるために,1381対の対訳文対から日本語300文を無作為に抽出し,翻訳の専門家2名が個別に参照訳を作成しました.さらに,NTCIR-7ワークショップに参加したグループの翻訳結果から一部を抽出し,専門家が訳質を判定したデータも含まれます.これらのデータを使うことで,BLEUのような自動評価と人手による評価の関係について分析することが可能です.
(2)Extrinsic評価
訓練データはIntrinsic評価と共通です.課題データは,NTCIR-5 PATENT(特許検索タスクコレクション)から抽出した検索課題124件です.1つの検索課題は日本公開特許公報全文から抜粋された日本語の請求項1件であり,各課題は人手で英訳されています.Extrinsic評価では,英語の検索課題を日本語に翻訳することが目的です.機械翻訳された検索課題を用いてNTCIR-5 PATENTの検索タスクを実行し,検索精度によって機械翻訳を間接的に評価します.ただし,NTCIR-5 PATENTの文書データに対する検索まで実行する必要があります.Intrinsic評価と同様に,元の日本語請求項を参照訳として使用することで,BLEU等の自動評価尺度で訳質そのものを評価することができます.
お申込み --- テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.
- まず,「テストコレクション利用申込書」を,E-mailで, idr-ntcir宛 に送付して下さい.
- 利用許諾に関する「覚書」をメールで送付しますので、 テストコレクションごとに各2部,かならず両面印刷で出力し,必要事項を記入し,署名および押印をして,以下の送付先に郵送してください.
NII側の押印後,テストコレクションの使用許諾を示すものとして1部を使用申込み者にお送りし,1部をNIIで保管します.
必要書類 ---
参考書類 ---
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項---