[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
コレクションは、
・文書データ: 毎日新聞記事データ2000‐2001、読売新聞記事データ2000‐2001
・質問応答データ: 質問(50シリーズ、360件。日本語)、解答
・採点支援ツールからなります。
*NIIからは、研究目的では質問と解答からなる「質問応答データと採点ツール」を配布します。
コレクション | タスク | 文書データ | タスク データ | |||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 検索課題 | 適合判定 | |||
言語 | # | |||||||||
NTCIR-5 QA |
QAC3 |
新聞記事 |
ntc5-j01-mai00.txt |
J |
2000 |
約12万 |
約135Mb |
J |
質問 |
2 (3) |
ntc5-j01-mai01.txt |
2001 |
約11万 |
約143Mb |
|||||||
ntc5-j01-yomi00.txt |
2000 |
約13万 |
約183Mb |
|||||||
ntc5-j01-yomi01.txt |
2001 |
約24万 |
約312Mb |
文書データは,以下の二種類のものを用います.日本語新聞記事データ入手方法参照
CD-毎日新聞記事データ集2000,2001年版は,研究利用目的のための利用を前提として,日外アソシエーツ(株)および毎日新聞社より購入できます。海外在住者でも日本語の覚書を理解し,かつ日本円の送金が可能な方は,日外アソシエーツ(株)から購入することができます.購入した記事データを、NTCIRテストコレクション用文書データとしては使用するためには下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
読売新聞日本語処理研究用記事データ2000,2001年版は,研究利用目的のための利用を前提として,日本データベース開発(株)より購入できます。購入した記事データを、NTCIRテストコレクション用文書データとして使用するためには.下記のURLより、スクリプトをダウンロードし、フォーマットをNTCIR用に変換してください。
NTCIR-4のQACのSubtask3 に相当する課題(情報アクセスのための対話(Information Access Dialog(IAD)タスク)であり,レポート執筆に必要な情報を対話的に収集することを想定した一連の質問について解答することを求めます.
それぞれの質問に対して正解と判断されたものを過不足なく列挙することを求めます.
一連の質問(質問シリーズ)において,シリーズの先頭の質問には明示的に示され,その後の質問では,それ以前の質問の一部もしくはその解答への参照が含まれています.
質問の列は対話的に与えられるものと仮定されていますので, ある質問に回答している時に,それより先の質問を参照することは許されません.
解答は,対象テキストに含まれた何らかの名称もしくは値の表現です. 人名,組織名などの固有表現,金額や度量衡などの数値表現,作品名,日付,種や カテゴリの名称が含まれます.更に,複合名詞による事象の表現,慣用的な構成による概数表現や 範囲表現を含みます.
質問ファイルは以下の形式を持つ行の並びとします.
[質問ID]: "[質問文]"<CR>
[質問ID]の形式は,[質問セットID]-[質問番号]-[枝問番号]
[質問セットID]は英数字4文字,[質問番号]は,数字5文字,[枝問番号]は数字2文字.
[質問文]は,全角文字の並び.句読点は「、」と「。」とし,「?」は用いない.
回答ファイルは以下の形式を持つ行の並びとします(いわゆるcsv形式).
お申込み --- NTCIR-5 QACテストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
- NTCIR-5 QACタスクデータは、NIIのIDRからダウンロードできます:
https://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
参考書類
お問い合わせ先 ---
idr-ntcir
注意事項---