NTCIR Project
NTCIR-7 PATMT(特許翻訳テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-7 PATMT (特許翻訳テストコレクション)



特許情報を対象として機械翻訳を評価するためのテストコレクションです.
次のようなデータから成っています.
 ・日英パテントファミリーから自動抽出された約180万のモデル訓練用日英対訳データ
 ・自動抽出された5200対訳ペアを人手でクリーニングしたテストセット
 ・マルチリファレンスによる自動評価を行うために人手翻訳を行った追加の正解文
 ・言語横断検索によるExtrinsicな評価を行うための124の検索課題
 ・NTCIR-7参加チームの翻訳結果に対する人手による評価結果
評価方法には,訳質によって直接的に評価する「Intrinsic評価」と,応用によって間接的に評価する「Extrinsic評価」があります.Intrinsic評価では,特許文書中の日本語文を英語に,もしくは英語文を日本語に翻訳し,訳質を評価します.Extrinsic評価では,言語横断情報検索によって機械翻訳を評価するために,英語の検索課題を日本語に翻訳し,訳質や検索精度を評価します.文書データは,日本公開特許公報全文1993-2002年と米国特許庁特許全文1993-2002年です.いずれも図表情報は含みません.


コレクション タスク 文書データ タスクデータ
ジャンル ファイル名 言語 年度 文書数 サイズ 翻訳課題 参照訳 人手判定 適合判定 訓練データ
言語 件数 言語 件数 件数 言語 件数
NTCIR-7 PATMT MT 特許全文 Publication of unexamined patent applications J 1993-
2002
3,496,252 94.5GB J

Intrinsic 1381文

E 1381文 + 300文 ×
2判定者
100文 ×
15システム ×
3判定者
- JE 1,798,571
文対
E

Intrinsic 1381文

J 1381文 100文 ×
5システム ×
3判定者
-
特許全文 Patent grant data published from USPTO E 1993-
2002
1,315,470 52.6 GB
E Extrinsic
124
請求項
- - - 3段階

*全データをNIIから提供します.

Publication of
unexamined patent
applications
NTCIR-4 PATENT および NTCIR-5 PATENT DVD-ROM, またはファイル転送等の電子的手段による配布
NTCIR-4 PATENT: 日本公開特許公報全文1993-1997年
NTCIR-5 PATENT: 日本公開特許公報全文1998-2002年
Patent grant
data published
from USPTO
NTCIR-6 PATENT DVD-ROM, またはファイル転送等の電子的手段による配布
NTCIR-6 PATENT:米国特許庁特許全文1993-2002年


文書データ, 検索課題および適合判定

 文書データ 

日本公開特許公報全文 1993-2002

19932002年に特許庁から発行された日本語の公開特許公報全文データです.

米国特許庁特許全文 1993-2002

19932002年に米国特許庁から発行された特許全文データです.特許として成立した出願だけです.


 

(1)Intrinsic評価

訓練データは,日本公開特許公報全文1993-2000年と米国特許庁特許全文1993-2000から自動抽出した約180万件の日英対訳文データです.課題データは,日本公開特許公報全文2001-2002年と米国特許庁特許全文2001-2002年から抽出した日本語と英語の対訳文1381対です.この1381対は翻訳の正しさが人手でチェックされています. 日本語と英語のうち,一方の言語を原言語とし,もう一方の言語を目的言語とします.目的言語の文を参照訳として使うことで,BLEUBiLingual Evaluation Understudy)等の自動評価尺度を使った評価が可能です.BLEU等による評価の客観性を高めるために,1381対の対訳文対から日本語300文を無作為に抽出し,翻訳の専門家2名が個別に参照訳を作成しました.さらに,NTCIR-7ワークショップに参加したグループの翻訳結果から一部を抽出し,専門家が訳質を判定したデータも含まれます.これらのデータを使うことで,BLEUのような自動評価と人手による評価の関係について分析することが可能です.

 

(2)Extrinsic評価

訓練データはIntrinsic評価と共通です.課題データは,NTCIR-5 PATENT(特許検索タスクコレクション)から抽出した検索課題124件です.1つの検索課題は日本公開特許公報全文から抜粋された日本語の請求項1件であり,各課題は人手で英訳されています.Extrinsic評価では,英語の検索課題を日本語に翻訳することが目的です.機械翻訳された検索課題を用いてNTCIR-5 PATENTの検索タスクを実行し,検索精度によって機械翻訳を間接的に評価します.ただし,NTCIR-5 PATENTの文書データに対する検索まで実行する必要があります.Intrinsic評価と同様に,元の日本語請求項を参照訳として使用することで,BLEU等の自動評価尺度で訳質そのものを評価することができます.


入手方法

お申込み --- テストコレクションの申込み方法は次の通りです.NIIから配布するものはいずれも無料です.

必要書類 ---   

参考書類 ---   

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)

Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項---

テストコレクションに含まれる文書データは,作成機関等から有償または無償でNTCIRで使用するために提供されたものです.いずれも,著作権があり,商品としての価値もあるものですが,情報アクセス研究におけるテストコレクションの重要性に鑑み,とくに,研究目的での使用を許諾していただきました.我々研究者は,今後も継続して文書データが研究に使用できるように,文書データ作成・提供機関からの信頼に応え,良好な関係を保つことが重要です.そのため,覚書等をよく理解し,文書データ作成・提供機関の権利を侵害しないように十分に配慮し,研究目的に限って使用してください.