NTCIR Project
NTCIR-5 PATENT(特許検索テストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-5 PATENT (特許検索テストコレクション)



特許情報処理に関する3種類の技術(サブタスク)を評価するためのテストコレクションです.3種類のサブタスクとは,「文書検索」,「パッセージ検索」,「分類」です.文書検索では,ある特許公報中の請求項を検索課題として,その請求項で主張されている権利を無効化できる別の特許公報を検索します.パッセージ検索では,文書検索で検索された公報から,その公報が検索された根拠を示す段落(パッセージ)を検索します.分類は,Fターム分類に基づいて特許公報を分類します.文書データは,日本公開特許公報全文1993-2002年,日本国公開特許英文抄録データPAJ 1993-2002年です。



コレクション タスク 文書データ タスク データ
ジャンル ファイル名 言語 年度 文書数 サイズ 検索課題 適合判定  
言語 #
NTCIR-5 PATENT IR 特許全文 Publication of unexamined Japanese patent applications
(kkh)
J 1993-2002 3,496,252 94.5GB JE
文書検索  1,223

パッセージ検索 356

分類:テーマ分類 2,008
    Fターム分類  500

4

3

1

特許抄録 Patent Abstracts of Japan
(paj)
E 1993-2002 3,496,252 5,482MB

*全データをNIIから提供します。


文書データ, 検索課題および適合判定

 文書データ 

日本公開特許公報全文 1993-2002
     1993〜2002年に公開された日本語の公開特許公報全文データです.これらは特許庁から公開されているデータと同じです.ただし,図表情報は含みません.

日本語公開特許英文抄録データPAJ1993-2002
JAPIO抄録(特許公報中の出願人抄録をもとに専門家が作成した抄録)を英訳した抄録です.


 


(1) 文書検索サブタスク

・検索課題
日本国特許公報全文から抜粋された請求項で,合計1223課題あります.一つの課題は一つの請求項からなります.
1223課題のうち,最初の34課題はNTCIR-4の検索課題と共通です.全課題について英訳があります.
適合判定
NTCIR-4と共通の34課題は,適合判定もNTCIR-4と同じです.
具体的には,専門家が(A)単独で無効化できる特許,(B)他との組み合わせによっては無効化できる特許,(C)本文を読んで不適合と判定された特許,
(D)発明の名称だけを見て不適合と判定された特許,の4段階で判定しました.それ以外の1189課題は,特許庁の審査官が使用した引例のみを適合文書とし,
(A)単独で引例として使用された特許,(B)他の特許と組み合わせて引例として使用された特許,(C)不適合,の3段階に分けました.
いずれの場合も,課題の請求項が出願される前に公開されていた特許だけが適合文書となります.


(2)パッセージ検索サブタスク

・検索課題
NTCIR-4特許検索タスクで使用された検索課題のうち41課題を対象として,各課題で検索された適合文書をパッセージ検索の課題とします.
1つの課題は1つの特許公報で,合計356課題あります.
適合判定
検索課題の特許公報が「適合文書」として検索されたことを示す根拠となる段落(パッセージ)が適合パッセージです.
具体的には,専門家が (A)単独で根拠となるパッセージ,(B)組み合わせることで根拠となるパッセージ集合,を判定しました.

(3)分類サブタスク
・検索課題
1998〜1999年に公開された日本公開特許公報から抽出した特許公報が課題です.1つの特許公報が1つの課題です.
テーマ分類では2008課題,Fターム分類では500課題あります.
1993〜1997年に公開された日本公開特許公報はシステムを訓練するための訓練データとして使用します.
適合判定
正解の分類は,それぞれの特許公報に対して特許庁から提供されている分類カテゴリです.


入手方法

お申込み --- テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。

必要書類 ---   

参考書類 ---   

「覚書」送付先 ---

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所
NTCIR事務局 (1309号室)

Phone: 03-4212-2750
FAX: 03-4212-2751

注意事項---

テストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで使用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただきました。我々研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが重要です。そのため、覚書等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してください