情報検索システム評価用テストコレクション構築プロジェクト リンクお問合せNII
NTCIR HOMEへ

サイト内検索

HOME
NTCIRとは
・ワークショップ
NTCIR-11
NTCIR-10
NTCIR-9
NTCIR-8
NTCIR-7
NTCIR-6
NTCIR-5
NTCIR-4
NTCIR-3
NTCIR-2
NTCIR-1
データ/ツール
出版物/会議論文集
関連サイト
メイリングリスト
よくあるお問合せ
お問合せ
プライバシーについて
NTCIR CMS HOME


テストコレクション提出結果アーカイブツール利用手続き・覚書テストコレクション詳細一覧

NTCIR Project

テストコレクション利用手続き・覚書
(研究目的用)

[English]
下記はNTCIRで構築し、使用したテストコレクション(実験用データセット)です。研究目的での利用に限り使用可能です(但し、一部の文書データはNIIからの配布を行っていません。お申し込み前に各テストコレクションの説明文をご確認ください)。

なおテストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで使用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただきました。我 々研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが求められます。覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してください。

またテストコレクション使用者は、「研究活動報告書」の提出と「発表論文報告」をしてください。
研究活動報告書」は、年度毎に、E-mailで、ntc-report宛に送付してください。
発表論文」の報告は、「NTCIR関連発表論文報告ページ」をご参照の上ntc-bib宛に送付してください。


申込み方法 --- テストコレクションの申込み方法は次の通りです。
           NIIから配布するものはいずれも無料です。

  • まず、「テストコレクション利用申込書」を、E-mailで、
    idr-ntcir宛に送付して下さい。→記入方法
  • その後、必要書類を事務局から連絡させていただきます。
  • テストコレクションの種類に応じて、テストコレクションの利用許諾に関する「覚書」か「利用申請書」のいずれか一方が必要です
    郵送にて、下記の住所に送付して下さい。
  • 覚書
    必要なテストコレクションの「覚書」を、各テストコレクションにつき2部かならず両面印刷で出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。
    NII側の押印後、テストコレクションの利用許諾を示すものとして1部を使用申込み者にお送りし、1部をNIIで保管します。→記入方法

  • 利用申請書
    1部で複数のテストコレクションの利用を申請することができます。
    「利用申請書」を1部出力し、必要事項を記入し、署名または押印をして、以下の送付先に郵送してください。
    NIIで審査後、利用承認書をお送りします。
  • 注)文書を各自で外部機関から入手し、NIIから課題データのみ使用許諾する場合は「利用申請書」の提出、文書を含むテストコレクション・データの利用をNIIから使用許諾する場合は「覚書」の提出となります。

  • 一部の文書・課題データをNIIのIDR: 情報学研究データリポジトリから提供しています。詳細はこちらをご覧ください:
    https://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html

データの利用中止---データの利用中止を希望される場合は、E-mailでidr-ntcirまでご連絡ください。その後、すべてのデータおよび当該データから作成された二次的データを削除の上、その「証明書」を1部出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。→「データ利用許諾解除とデータの削除について


「覚書」「利用申請書」「データ削除証明書」送付先
    
〒101-8430
     東京都千代田区一ツ橋2-1-2
     国立情報学研究所
     NTCIR事務局 (1309号室) 宛

     Phone: 03-4212-2750
     FAX: 03-4212-2751

メーリングリスト

新しいテストコレクションの公開等は、ntcirよりe-mailにてお知らせします。
ご関心のあるかたは、NTCIR mailing list(「NTCIR一般メイリングリスト」)にご登録ください。


(NTCIRワークショップについては、こちらを御覧下さい。
http://research.nii.ac.jp/ntcir/workshop/index-ja.html

研究目的使用が可能なテストコレクション

|NTCIR-1| |NTCIR-2| |NTCIR-3| |NTCIR-4| |NTCIR-5| |NTCIR-6| |NTCIR-7| |NTCIR-8| |NTCIR-9|

o NTCIR-1 [ テストコレクション詳細一覧 ]

        NTCIR-1: 情報検索/用語抽出研究用テストコレクション

o NTCIR-2 [ テストコレクション詳細一覧 ]

        NTCIR-2: 情報検索用テストコレクション
        NTCIR-2 SUMM: テキスト自動要約用テストコレクション

o NTCIR-3 [ テストコレクション詳細一覧 ]

        NTCIR-3 CLIR: 情報検索/言語横断検索用テストコレクション
        NTCIR-3 PATENT: 特許検索テストコレクション
        NTCIR-3 QA: 質問応答用テストコレクション
        NTCIR-3 SUMM: テキスト自動要約用テストコレクション
        NTCIR-3 WEB: Web検索評価用テストコレクション


o NTCIR-4 [ テストコレクション詳細一覧 ]

        NTCIR-4 CLIR: 言語横断検索テストコレクション
        NTCIR-4: 特許検索テストコレクション
        NTCIR-4 WEB: 検索評価用テストコレクション
        NTCIR-4 QAC: 質問応答テストコレクション

o NTCIR-5 [テストコレクション詳細一覧]

       NTCIR-5 CLIR: 言語横断検索テストコレクション
       NTCIR-5 CLQA: 多言語質問応答テストコレクション
       NTCIR-5: 特許検索テストコレクション
       NTCIR-5 QAC: 質問応答テストコレクション
       NTCIR-5 WEB: 検索評価用テストコレクション

o NTCIR-6 [テストコレクション詳細一覧]

       NTCIR-6 CLIR: 言語横断検索テストコレクション
       NTCIR-6 CLQA: 多言語質問応答テストコレクション
       NTCIR-6 OPINION: 意見分析テストコレクション
       NTCIR-6: 特許検索テストコレクション
       NTCIR-6 QAC: 質問応答テストコレクション
       NTCIR-6 MuST: 「動向情報の要約と可視化」テストコレクション

o NTCIR-7 [テストコレクション詳細一覧]

       NTCIR-7 ACLIA: 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-7 MOAT: 多言語意見分析テストコレクション
       NTCIR-7 PATMN: 特許マイニングテストコレクション
       NTCIR-7 PATMT: 特許翻訳テストコレクション
       NTCIR-7 MuST: 「動向情報の要約と可視化」テストコレクション

o NTCIR-8 [テストコレクション詳細一覧]

       NTCIR-8 ACLIA: 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-8 GeoTime: 地理・時間情報の検索テストコレクション
       NTCIR-8 MOAT: 多言語意見分析テストコレクション
       NTCIR-8 PATMN: 特許マイニングテストコレクション
       NTCIR-8 PATMT: 特許翻訳テストコレクション翻訳サブタスク/評価サブタスク
       NTCIR-8 CQA: コミュニティQAテストコレクション

o NTCIR-9 [テストコレクション詳細一覧]

       NTCIR-9 CrossLink: Cross-lingual Link Discovery テストコレクション
       NTCIR-9 GeoTime: 地理・時間情報の検索テストコレクション
       NTCIR-9 INTENT: Intent テストコレクション
       NTCIR-9 1CLICK: One Click Accessテストコレクション
       NTCIR-9 PatentMT: 特許機械翻訳テストコレクション
       NTCIR-9 RITE: Recognizing Inference in TExt テストコレクション
       NTCIR-9 SpokenDoc: 音声ドキュメント検索テストコレクション
       

o NTCIR-1

  • oNTCIR-1: 情報検索/用語抽出研究用テストコレクション
    • [ テストコレクション詳細一覧 ]
      情報検索用テストコレクションとして、文書データ(学会発表データベース著者抄録(1988-1997)=国内65学会の発表論文著者抄録約33万件。半数以上は日英対訳)、検索課題83件(日本語)、正解判定を含みます。日本語検索、日->英の言語横断検索、日->日本語+英語 の検索の実験に使用できます。用語抽出研究用コレクションとして、情報検索用テストコレクションから抽出した日本語文書データ2000件に言語タグを付加したものを含みます。テストコレクション全体をNIIから研究目的で提供します。

o NTCIR-2
  • oNTCIR-2: 情報検索用テストコレクション
    • [ テストコレクション詳細一覧]
    • コレクションは、文書データ(学会発表データベース著者抄録(1997-1999), 研究費成果報告書(1986-1997) = 計日本語約40万件、英語13万件)、検索課題49件(日英)、正解判定を含みます。テストコレクション全体をNIIから研究目的で提供します。検索実験では、NTCIR-1の文書データと合わせて使用します。成果判定はNTCIR-1, NTCIR-2の文書をあわせた正解文書のリストです。NTCIR-1の文書IDの形式をCD-ROMに含まれるスクリプトで変換する必要があります。また、NTCIR-2では、文書データ全体をNTCIR-2開催時点で標準的だとオーガナイザが判断した語分割ソフトウェアで語(短単位、長単位)に分割したデータも使用しました。この語分割データの使用を希望されるかたは別途NTCIR事務局にご連絡ください。

  • oNTCIR-2 SUMM: テキスト自動要約用テストコレクション
    • [ テストコレクション詳細一覧 ]
    • コレクションは、文書データ(毎日新聞記事データ(1994,1995,1998))、要約データ(人手作成要約:180記事について、各々3人の分析者が長さや戦略の異なる7種類の要約を作成)からなります。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。
  • o NTCIR-2 SUMM TAO: 動要約用データ:TAO作成

o NTCIR-3

  • oNTCIR-3 CLIR: 情報検索/言語横断検索用テストコレクション
    • [ テストコレクション詳細一覧 ]
    • コレクションは、文書データ(毎日新聞記事データ1998-1999(日本語)、:CIRB011+CIRB020(台湾の新聞各種1998-1999)、毎日デイリー1998-1999(日本で発行された英文新聞)、EIRB010(台湾で発行された英語新聞各種1998-1999); Korean Economic Daily1994(韓国語の新聞記事))、検索課題(1998-1999年記事用50件、1994年用30件。それぞれ、中韓日英4ヶ国語)、正解判定からなります。NIIからは、研究目的では検索課題と正解判定からなる「検索課題データ」、英語文書データのうち毎日デイリーファイル(1998-1999)、中国語データのうちCIRB020を配布します。文書データはNTCIR-4 CLIRでも使用しています。日本語文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。 それ以外の文書データはNTCIRワークショップの参加者のみが使用できます。検索実験に使用できる検索課題と正解判定ファイルは、検索対象となる文書の言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。


  • NTCIR-3 PATENT: 特許検索テストコレクション
    • [ テストコレクション詳細一覧 ]
    • コレクションは、文書データ(日本国特許公報全文1998-1999、JAPIO抄録(日本語抄録1995-1999)、PAJ(英文抄録 1995-1999))、検索課題30件(日本語と、中国語(繁体字、簡体字)、韓国語、英語への翻訳)、正解判定からなります。JAPIO抄録は、公報中の出願人抄録をもとに抄録作成専門家が作成し、PAJはJAPIO抄録の英訳)。文書は全文が約18GB、抄録が約4GBです。NTCIR-4 PATENTでは特許公報全文1993-2002, PAJ1993-2002を使用していますが、同じ年代でも少数のNTCIR-3と異なる文書データが含まれています。検索課題は、関連する新聞記事を含み、新聞記事から特許を探すジャンル横断検索と通常の検索課題から探すad hoc検索の実験ができます。テストコレクション全体をNIIから研究目的で提供します。
      • 利用申込書
      • 使用許諾に関する覚書 (利用申込書をご提出いただいた後、メールで送付します)
      • NTCIR-3 PATENTのREADME  [EUC]    [S-JIS]    [PDF]    

  • oNTCIR-3 QA: 質問応答用テストコレクション
    • [ テストコレクション詳細一覧 ]
    • コレクションは、文書データ(毎日新聞記事データ1998-1999)、質問(約1200件。日本語と英語への翻訳版)、解答からなります。 NIIからは、研究目的では質問と解答からなる「質問応答データ」を配布します。文書データはNTCIR-4 QACで も使用しています。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。
    • 質問応答データは、NIIのIDRからダウンロードできます。


  • oNTCIR-3 SUMM: テキスト自動要約用テストコレクション
    • [ テストコレクション詳細一覧 ]
    • コレクションは、文書データ(毎日新聞記事データ1998,1999)、要約データからなります。要約データは、単一文書要約(60記事について、各々3人の分析者が長さや戦略の異なる7種類の要約を作成)と複数文書要約(50種類の記事セットについて、各々3人の分析者が長さの異なる2種類の要約を作成。記事セットのトピックも明示)の人手作成要約データを含みます。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。