NTCIR Project
NTCIR-8 PATMT(特許翻訳テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-8 PATMT (特許翻訳テストコレクション)



NTCIR-8 特許翻訳テストコレクションとして、下記のサブタスクで構築されたデータセットを提供しています。


翻訳サブタスク テストコレクション

特許情報を対象として英→日,日→英の機械翻訳を評価するためのテストコレクションです.
次のようなデータから成っています.

 ・日英パテントファミリーから自動抽出された約320万文対のモデル訓練用日英対訳データ
 ・自動抽出された日・英の4000対訳ペアを人手でクリーニングしたテストセット
  (4000対訳ペアのうち, 正しい翻訳と判断された2370対訳ペアを選び, 1251対訳ペアを日→英翻訳課題, 1119対訳ペアを英→日翻訳課題として使用)
 ・マルチリファレンスによる自動評価を行うために人手翻訳を行った日または英の追加正解文(300文×3人)
 ・言語横断検索によるExtrinsicな評価を行うための91の検索課題と正解データ

翻訳サブタスク テストコレクションは,評価方法として,訳質によって直接的に評価する「Intrinsic評価」と,応用によって間接的に評価する「Extrinsic評価」に用いることができます.Intrinsic評価では,特許文書中の日本語文を英語に,もしくは英語文を日本語に翻訳し,訳質を評価します.Extrinsic評価では,言語横断情報検索によって機械翻訳を評価するために,英語の検索課題を日本語に翻訳し,訳質や検索精度を評価します.文書データは,日本公開特許公報全文1993-2007年と米国特許庁特許全文1993-2007年です.いずれも図表情報は含みません.


コレクション サブタスク 文書データ タスクデータ
ジャンル ファイル名 言語 年度 文書数 サイズ 翻訳課題 参照訳 適合判定 訓練データ
言語 件数 言語 件数 言語 件数
NTCIR-8 PATMT TS* 特許全文 Publication of unexamined patent applications J 1993-
2007
5,253,613 165.0 GB J

Intrinsic 1251文

E 1251文 + 300文 ×
3翻訳者
- JE 3,186,284
文対
E

Intrinsic 1119文

J 1119文 -
特許全文 Patent grant data published from USPTO E 1993-
2007
2,124,370 120.6 GB
E Extrinsic
91
請求項
- - 3 levels

TS* 翻訳サブタスク

--- 全データをNIIから提供します.

ファイル名 年度 配布方法
Publication of
unexamined patent
applications
日本公開特許公報全文 1993-1997年 NTCIR-4 PATENT: DVD-ROMまたはファイル転送等の電子的手段による配布
日本公開特許公報全文 1998-2002年 NTCIR-5 PATENT: DVD-ROMまたはファイル転送等の電子的手段による配布
日本公開特許公報全文 2003-2007年 NTCIR-8 PATMT: ファイル転送等の電子的手段による配布
Patent grant
data published
from USPTO
米国特許庁特許全文 1993-2002年 NTCIR-6 PATENT: DVD-ROMまたはファイル転送等の電子的手段による配布
米国特許庁特許全文 2003-2007年 NTCIR-8 PATMT: ファイル転送等の電子的手段による配布


文書データ, 検索課題および適合判定

 文書データ 

日本公開特許公報全文 1993-2007

1993〜2007年に特許庁から発行された日本語の公開特許公報全文データです.

米国特許庁特許全文 1993-2007

1993〜2007年に米国特許庁から発行された特許全文データです.特許として成立した出願だけです.


 

翻訳サブタスク

(1)Intrinsic評価

訓練データは,日本公開特許公報全文1993-2005年と米国特許庁特許全文1993-2005から自動抽出した約320万件の日英対訳文データです.課題データは,日本公開特許公報全文2006-2007年と米国特許庁特許全文2006-2007年から抽出した日本語と英語の対訳文1251対(日英翻訳課題)と1119対(英日翻訳課題)です.この1251対と1119対は翻訳の正しさが人手でチェックされています. 目的言語の文を参照訳として使うことで,BLEUBiLingual Evaluation Understudy)等の自動評価尺度を使った評価が可能です.BLEU等による評価の客観性を高めるために,1251対の対訳文対から日本語300文を無作為に抽出し,翻訳の専門家3名が個別に参照訳を作成しました.

 

(2)Extrinsic評価

訓練データはIntrinsic評価と共通です.課題データは,NTCIR-6 PATENT(特許検索タスクコレクション)から抽出した検索課題91件です.1つの検索課題は日本公開特許公報全文から抜粋された日本語の請求項1件であり,各課題は人手で英訳されています.Extrinsic評価では,英語の検索課題を日本語に翻訳することが目的です.機械翻訳された検索課題を用いてNTCIR-6 PATENTの検索タスクを実行し,検索精度によって機械翻訳を間接的に評価します.ただし,NTCIR-6 PATENTの文書データに対する検索まで実行する必要があります.Intrinsic評価と同様に,元の日本語請求項を参照訳として使用することで,BLEU等の自動評価尺度で訳質そのものを評価することができます.


入手方法

お申込み --- テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.

必要書類 ---   

参考書類 ---   

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)

Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項 ---

テストコレクションに含まれる文書データは,作成機関等から有償または無償でNTCIRで利用するために提供されたものです.いずれも,著作権があり,商品としての価値もあるものですが,情報アクセス研究におけるテストコレクションの重要性に鑑み,とくに,研究目的での利用を許諾していただきました.我々研究者は,今後も継続して文書データが研究に利用できるように,文書データ作成・提供機関からの信頼に応え,良好な関係を保つことが重要です.そのため,覚書等をよく理解し,文書データ作成・提供機関の権利を侵害しないように十分に配慮し,研究目的に限って利用してください