情報検索システム評価用テストコレクション構築プロジェクト リンクお問合せNII
NTCIR HOMEへ

サイト内検索

HOME
NTCIRとは
・ワークショップ
NTCIR-10
NTCIR-9
NTCIR-8
NTCIR-7
NTCIR-6
NTCIR-5
NTCIR-4
NTCIR-3
NTCIR-2
NTCIR-1
データ/ツール
出版物/会議論文集
関連サイト
メイリングリスト
よくあるお問合せ
お問合せ
プライバシーについて
NTCIR CMS HOME


テストコレクション提出結果アーカイブツール利用手続き・覚書テストコレクション詳細一覧

NTCIR Project

テストコレクション利用手続き・覚書
(研究目的用)

[English]
下記はNTCIRで構築し、使用したテストコレクション(実験用データセット)です。研究目的での利用に限り使用可能です(但し、一部の文書データはNIIからの配布を行っていません。お申し込み前に各テストコレクションの説明文をご確認ください)。

なおテストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで使用するために提供されたものです。いずれも、著作権があり、商 品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただきました。我 々研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが求められます。覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してください。

またテストコレクション使用者は、「研究活動報告書」の提出と「発表論文報告」をしてください。
研究活動報告書」は、年度毎に、E-mailで、 ntc-secretariat宛 に送付してください。
発表論文」の報告は、「NTCIR関連発表論文報告ページ」をご参照の上ntc-bib宛 に送付してください。

申込み方法 --- テストコレクションの申込み方法は次の通りです。
           NIIから配布するものはいずれも無料です。

  • まず、「テストコレクション利用申込書」を、E-mailで、 ntc-secretariat宛 に送付して下さい。→記入方法
  • テストコレクションの種類に応じて、テストコレクションの利用許諾に関する「覚書」か「利用申請書」のいずれか一方が必要です
    郵送にて、下記の住所に送付して下さい。
    • 覚書
      必要なテストコレクションの「覚書」を、各テストコレクションにつき2部かならず両面印刷で出力し、必要事項を記入し、署名および押印を して、以下の送付先に郵送してください。
      NII側の押印後、テストコレクションの利用許諾を示すものとして1部を使用申込み者にお送りし、1部をNIIで保管します。→記入方法
    • 利用申請書
      1部で複数のテストコレクションの利用を申請することができます。
      「利用申請書」を1部出力し、必要事項を記入し、署名または押印をして、以下の送付先に郵送してください。
      NIIで審査後,利用承認書をお送りします。
  • 注)文書を各自で外部機関から入手し、NIIから課題データのみ使用許諾する場合は「利用申請書」の提出、文書を含むテストコレクション・データの利用をNIIから使用許諾する場合は「覚書」の提出となります。
データの利用中止---データの利用中止を希望される場合は、E-mailでntc-secretariatまでご連絡ください。その後、すべてのデータおよび当該データから作成された二次的データを削除の上、その「証明書」を1部出力し、必要事項を記入し、署名および押印をして、以下の送付先に郵送してください。→「データ利用許諾解除とデータの削除について


「覚書」「利用申請書」「データ削除証明書」送付先
    
〒101-8430
     東京都千代田区一ツ橋2-1-2
     国立情報学研究所
     NTCIR事務局 (1309号室) 宛

     Phone: 03-4212-2750
     FAX: 03-4212-2751

メーリングリスト

新しいテストコレクションの公開等は、ntcirより e-mail にてお知らせします。
ご関心のあるかたは、NTCIR mailing list (「NTCIR一般メイリングリスト」) にご登録ください。


(現在進行中のNTCIR ワークショップについては、NTCIR-9 Workshopをごらん下さい。) 

研究目的使用が可能なテストコレクション

|NTCIR-1|NTCIR-2|NTCIR-3|NTCIR-4|NTCIR-5|NTCIR-6|NTCIR-7|NTCIR-8|

o NTCIR-1 [ テストコレクション詳細一覧 ]

        NTCIR-1(情報検索/用語抽出研究用テストコレクション)

o NTCIR-2 [ テストコレクション詳細一覧 ]

        NTCIR-2(情報検索用テストコレクション)
        NTCIR-2 SUMM(テキスト自動要約用テストコレクション)

o NTCIR-3 [ テストコレクション詳細一覧 ]

        NTCIR-3 CLIR(情報検索/言語横断検索用テストコレクション)
        NTCIR-3 PATENT (特許検索テストコレクション)
        NTCIR-3 QA (質問応答用テストコレクション
        NTCIR-3 SUMM (テキスト自動要約用テストコレクション)
        NTCIR-3 WEB (Web検索評価用テストコレクション)


o NTCIR-4 [ テストコレクション詳細一覧 ]

        NTCIR-4 CLIR言語横断検索テストコレクション
        NTCIR-4 特許検索テストコレクション
        NTCIR-4 WEB検索評価用テストコレクション
        NTCIR-4 QAC質問応答テストコレクション

o NTCIR-5 [テストコレクション詳細一覧]

       NTCIR-5 CLIR 言語横断検索テストコレクション
       NTCIR-5 CLQA 多言語質問応答テストコレクション
       NTCIR-5 特許検索テストコレクション
       NTCIR-5 QAC 質問応答テストコレクション
       NTCIR-5 WEB検索評価用テストコレクション

o NTCIR-6 [テストコレクション詳細一覧]

       NTCIR-6 CLIR 言語横断検索テストコレクション
       NTCIR-6 CLQA 多言語質問応答テストコレクション
       NTCIR-6 OPINION 意見分析テストコレクション
       NTCIR-6 特許検索テストコレクション
       NTCIR-6 QAC 質問応答テストコレクション
       NTCIR-6 MuST 「動向情報の要約と可視化」テストコレクション

o NTCIR-7 [テストコレクション詳細一覧]

       NTCIR-7 ACLIA 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-7 MOAT 多言語意見分析テストコレクション
       NTCIR-7 PATMN 特許マイニングテストコレクション
       NTCIR-7 PATMT 特許翻訳テストコレクション
       NTCIR-7 MuST 「動向情報の要約と可視化」テストコレクション

o NTCIR-8 [テストコレクション詳細一覧]

       NTCIR-8 ACLIA 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-8 GeoTime 地理・時間情報の検索テストコレクション
       NTCIR-8 MOAT 多言語意見分析テストコレクション
       NTCIR-8 PATMN 特許マイニングテストコレクション
       NTCIR-8 PATMT 特許翻訳テストコレクション翻訳サブタスク/評価サブタスク
       NTCIR-8 CQA コミュニティQAテストコレクション

o NTCIR-1

  • oNTCIR-1(情報検索/用語抽出研究用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • 情報検索用テストコレクションとして、文書データ(学会発表データベース著者抄録(1988-1997)=国内65学会の発表論文著者抄録約 33万件。半数以上は日英対訳)、検索課題83件(日本語)、正解判定を含みます。日本語検索、日->英の言語横断検索、日->日本語+英語 の検索の実験に使用できます。用語抽出研究用コレクションとして、情報検索用テストコレクションから抽出した日本語文書データ2000件に言語タグを付加 したものを含みます。テストコレクション全体をNIIから研究目的で提供します。

o NTCIR-2
  • oNTCIR-2(情報検索用テストコレクション)
  • [ テストコレクション詳細一覧]
  • コレクションは、文書データ(学会発表データベース著者抄録(1997-1999), 研究費成果報告書(1986-1997) = 計日本語約40万件、英語13万件)、検索課題49件(日英)、正解判定を含みます。テストコレクション全体をNIIから研究目的で提供します。検索実験 では、NTCIR-1の文書データと合わせて使用します。成果判定はNTCIR-1, NTCIR-2の文書をあわせた正解文書のリストです。NTCIR-1の文書IDの形式をCD-ROMに含まれるスクリプトで変換する必要があります。ま た、NTCIR-2では、文書データ全体をNTCIR-2開催時点で標準的だとオーガナイザが判断した語分割ソフトウェアで語(短単位、長単位)に分割し たデータも使用しました。この語分割データの使用を希望されるかたは別途NTCIR事務局にご連絡ください。

  • oNTCIR-2 SUMM(テキスト自動要約用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(毎日新聞記事データ(1994,1995,1998))、要約データ(人手作成要約:180記事について、各々 3人の分析者が長さや戦略の異なる7種類の要約を作成)からなります。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。

  • NTCIR-2 SUMM要約データ
  • o NTCIR-2 SUMM TAO(自動要約用データ:TAO作成)
  • [ テストコレクション詳細一覧 ]
  • 現在配布を中止しています。配布が可能になるようでしたら、ntcirより e-mail にてお知らせします。  
    (お知らせを希望される方は、NTCIR mailing list (「NTCIR一般メイリングリスト」)にご登録ください.)

o NTCIR-3

  • oNTCIR-3 CLIR(情報検索/言語横断検索用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(毎日新聞記事データ1998-1999(日本語)、:CIRB011+CIRB020(台湾の新聞各種1998 -1999)、毎日デイリー1998-1999(日本で発行された英文新聞)、EIRB010(台湾で発行された英語新聞各種1998-1999); Korean Economic Daily1994(韓国語の新聞記事))、検索課題(1998-1999年記事用50件、1994年用30件。それぞれ、中韓日英4ヶ国語)、正解判定 からなります。NIIからは、研究目的では検索課題と正解判定からなる「検索課題データ」、英語文書データのうち毎日デイリーファイル(1998-1999)、中国語データのうちCIRB020を配布します。文書データはNTCIR-4 CLIRで も使用しています。日本語文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を 得ることができます。 それ以外の文書データはNTCIRワークショップの参加者のみが使用できます。検索実験に使用できる検索課題と正解判定ファイルは、検索対象となる文書の 言語によって異なる点に留意してください。詳しくはREADMEをご参照ください。

  • 検索課題・適合判定データのみのお申し込みの場合   テストコレクション(文書データと検索課題・適合判定データ)のお申し込みの場合

  • NTCIR-3 PATENT (特許検索テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(日本国特許公報全文1998-1999、JAPIO抄録(日本語抄録1995-1999)、PAJ(英文抄録 1995-1999))、検索課題30件(日本語と、中国語(繁体字、簡体字)、韓国語、英語への翻訳)、正解判定からなります。JAPIO抄録は、公報 中の出願人抄録をもとに抄録作成専門家が作成し、PAJはJAPIO抄録の英訳)。文書は全文が約18GB、抄録が約4GBです。NTCIR-4 PATENTでは特許公報全文1993-2002, PAJ1993-2002を使用していますが、同じ年代でも少数のNTCIR-3と異なる文書データが含まれています。検索課題は、関連する新聞記事を含 み、新聞記事から特許を探すジャンル横断検索と通常の検索課題から探すad hoc検索の実験ができます。テストコレクション全体をNIIから研究目的で提供します。

  • oNTCIR-3 QA (質問応答用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(毎日新聞記事データ1998-1999)、質問(約1200件。日本語と英語への翻訳版)、解答からなります。 NIIからは、研究目的では質問と解答からなる「質問応答データ」を配布します。文書データはNTCIR-4 QACで も使用しています。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を 得ることができます。

  • 質問応答データ


  • oNTCIR-3 SUMM (テキスト自動要約用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(毎日新聞記事データ1998,1999)、要約データからなります。要約データは、単一文書要約(60記事につ いて、各々3人の分析者が長さや戦略の異なる7種類の要約を作成)と複数文書要約(50種類の記事セットについて、各々3人の分析者が長さの異なる2種類 の要約を作成。記事セットのトピックも明示)の人手作成要約データを含みます。NIIからは要約データのみを配布します。文書データは日外アソシエーツから入手し、毎日新聞社から研究利用許諾を得ることができます。

  • 要約データ
  • oNTCIR-3 WEB (Web検索評価用テストコレクション)
  • [ テストコレクション詳細一覧 ]
  • コレクションは、文書データ(主として.jpドメインから収集したHTMLもしくはプレーンテキストファイル。言語は主に日本語と英語、ごく 一部にその他の言語。100GB)、検索課題47件(日本語と英訳)、正解判定からなります。正解判定は1クリック先も考慮したものと文書単体で評価した ものがあります。テストコレクション全体をNIIから研究目 的で提供します。文書データと、検索課題データ(検索課題と正解判定)とを別々に申し込んでください。
  • (従来、文書データの利用と処理は、国立情報学研究所内に設置された「オープンラボラトリ」内のみに限られていましたが、この制限はなくなり ました。)

o NTCIR-4 [ テストコレクション詳細一覧 ]
      テストコレクションの詳細につきましては、各タスクのページをご覧下さい。
        NTCIR-4 CLIR言語横断検索テストコレクション
        NTCIR-4 特許検索テストコレクション
        NTCIR-4 QAC質問応答テストコレクション
        NTCIR-4WEB(Web検索評価用テストコレクションタスク文書データ)

o NTCIR-5 [テストコレクション詳細一覧]
      テストコレクションの詳細につきましては、各タスクのページを御覧下さい。
       NTCIR-5 CLIR 言語横断検索テストコレクション
       NTCIR-5 CLQA 多言語質問応答テストコレクション
       NTCIR-5 特許検索テストコレクション
       NTCIR-5 QAC 質問応答テストコレクション
       NTCIR-5 WEB検索評価用テストコレクション

o NTCIR-6 [テストコレクション詳細一覧]
      テストコレクションの詳細につきましては、各タスクのページを御覧下さい。
       NTCIR-6 CLIR 言語横断検索テストコレクション
       NTCIR-6 CLQA 多言語質問応答テストコレクション
       NTCIR-6 OPINION 意見分析テストコレクション
       NTCIR-6 特許検索テストコレクション
       NTCIR-6 QAC 質問応答テストコレクション
       NTCIR-6 MuST 「動向情報の要約と可視化」テストコレクション

oNTCIR-7 [テストコレクション詳細一覧]
     
テストコレクションの詳細につきましては、各タスクのページを御覧下さい。
       NTCIR-7 ACLIA 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-7 MOAT 多言語意見分析テストコレクション
       NTCIR-7 PATMN 特許マイニングテストコレクション
       NTCIR-7 PATMT 特許翻訳テストコレクション
       NTCIR-7 MuST 「動向情報の要約と可視化」テストコレクション

oNTCIR-8 [テストコレクション詳細一覧]
     
テストコレクションの詳細につきましては、各タスクのページを御覧下さい。
       NTCIR-8 ACLIA 高度な言語横断情報検索と質問応答テストコレクション
       NTCIR-8 GeoTime 地理・時間情報の検索テストコレクション
       NTCIR-8 MOAT 多言語意見分析テストコレクション
       NTCIR-8 PATMN 特許マイニングテストコレクション
       NTCIR-8 PATMT 特許翻訳テストコレクション (翻訳サブタスク/評価サブタスク
       NTCIR-8 CQA コミュニティQAテストコレクション

現在進行中のNTCIR ワークショップについては、こちらを御覧下さい。
http://research.nii.ac.jp/ntcir/ntcir-9/index-ja.html