[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
NTCIR-8 特許翻訳テストコレクションとして、下記のサブタスクで構築されたデータセットを提供しています。
翻訳サブタスク テストコレクション
特許情報を対象として英→日,日→英の機械翻訳を評価するためのテストコレクションです.
次のようなデータから成っています.
・日英パテントファミリーから自動抽出された約320万文対のモデル訓練用日英対訳データ
・自動抽出された日・英の4000対訳ペアを人手でクリーニングしたテストセット
(4000対訳ペアのうち, 正しい翻訳と判断された2370対訳ペアを選び, 1251対訳ペアを日→英翻訳課題, 1119対訳ペアを英→日翻訳課題として使用)
・マルチリファレンスによる自動評価を行うために人手翻訳を行った日または英の追加正解文(300文×3人)
・言語横断検索によるExtrinsicな評価を行うための91の検索課題と正解データ
翻訳サブタスク テストコレクションは,評価方法として,訳質によって直接的に評価する「Intrinsic評価」と,応用によって間接的に評価する「Extrinsic評価」に用いることができます.Intrinsic評価では,特許文書中の日本語文を英語に,もしくは英語文を日本語に翻訳し,訳質を評価します.Extrinsic評価では,言語横断情報検索によって機械翻訳を評価するために,英語の検索課題を日本語に翻訳し,訳質や検索精度を評価します.文書データは,日本公開特許公報全文1993-2007年と米国特許庁特許全文1993-2007年です.いずれも図表情報は含みません.
コレクション | サブタスク | 文書データ | タスクデータ | |||||||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 翻訳課題 | 参照訳 | 適合判定 | 訓練データ | |||||
言語 | 件数 | 言語 | 件数 | 言語 | 件数 | |||||||||
NTCIR-8 PATMT | TS* | 特許全文 | Publication of unexamined patent applications | J | 1993- 2007 |
5,253,613 | 165.0 GB | J |
Intrinsic 1251文 |
E | 1251文 + 300文 × 3翻訳者 |
- | JE | 3,186,284 文対 |
E |
Intrinsic 1119文 |
J | 1119文 | - | ||||||||||
特許全文 | Patent grant data published from USPTO | E | 1993- 2007 |
2,124,370 | 120.6 GB | |||||||||
E | Extrinsic 91 請求項 |
- | - | 3 levels |
TS* 翻訳サブタスク
--- 全データをNIIから提供します.
ファイル名 | 年度 | 配布方法 |
Publication of unexamined patent applications |
日本公開特許公報全文 1993-1997年 | NTCIR-4 PATENT: DVD-ROM,またはファイル転送等の電子的手段による配布 |
日本公開特許公報全文 1998-2002年 | NTCIR-5 PATENT: DVD-ROM,またはファイル転送等の電子的手段による配布 | |
日本公開特許公報全文 2003-2007年 | NTCIR-8 PATMT: ファイル転送等の電子的手段による配布 | |
Patent grant data published from USPTO |
米国特許庁特許全文 1993-2002年 | NTCIR-6 PATENT: DVD-ROM,またはファイル転送等の電子的手段による配布 |
米国特許庁特許全文 2003-2007年 | NTCIR-8 PATMT: ファイル転送等の電子的手段による配布 |
日本公開特許公報全文 1993-2007
1993〜2007年に特許庁から発行された日本語の公開特許公報全文データです.
米国特許庁特許全文 1993-2007
1993〜2007年に米国特許庁から発行された特許全文データです.特許として成立した出願だけです.
翻訳サブタスク
(1)Intrinsic評価
訓練データは,日本公開特許公報全文1993-2005年と米国特許庁特許全文1993-2005から自動抽出した約320万件の日英対訳文データです.課題データは,日本公開特許公報全文2006-2007年と米国特許庁特許全文2006-2007年から抽出した日本語と英語の対訳文1251対(日英翻訳課題)と1119対(英日翻訳課題)です.この1251対と1119対は翻訳の正しさが人手でチェックされています. 目的言語の文を参照訳として使うことで,BLEU(BiLingual Evaluation Understudy)等の自動評価尺度を使った評価が可能です.BLEU等による評価の客観性を高めるために,1251対の対訳文対から日本語300文を無作為に抽出し,翻訳の専門家3名が個別に参照訳を作成しました.
(2)Extrinsic評価
訓練データはIntrinsic評価と共通です.課題データは,NTCIR-6 PATENT(特許検索タスクコレクション)から抽出した検索課題91件です.1つの検索課題は日本公開特許公報全文から抜粋された日本語の請求項1件であり,各課題は人手で英訳されています.Extrinsic評価では,英語の検索課題を日本語に翻訳することが目的です.機械翻訳された検索課題を用いてNTCIR-6 PATENTの検索タスクを実行し,検索精度によって機械翻訳を間接的に評価します.ただし,NTCIR-6 PATENTの文書データに対する検索まで実行する必要があります.Intrinsic評価と同様に,元の日本語請求項を参照訳として使用することで,BLEU等の自動評価尺度で訳質そのものを評価することができます.
お申込み --- テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.
- まず,「テストコレクション利用申込書」を, E-mailで, idr-ntcir
宛 に送付して下さい.
- 利用許諾に関する「覚書」をメールで送付しますので、 テストコレクションごとに各2部,かならず両面印刷で出力し,必要事項を記入し,署名および押印をして,以下の送付先に郵送してください.
NII側の押印後,テストコレクションの利用許諾を示すものとして1部を利用申込み者にお送りし,1部をNIIで保管します.
必要書類 ---
参考書類 ---
「覚書」送付先 ---
〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)
Phone: 03-4212-2750
FAX: 03-4212-2751
注意事項 ---