[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
コレクションは、
・文書データ: 毎日新聞記事データ1998‐1999、読売新聞記事データ1998‐1999
・質問応答データ: 質問(約650件。日本語と英語への翻訳版)、解答
・採点支援ツールからなります。
*NIIからは、研究目的では質問と解答からなる「質問応答データと採点ツール」を配布します。
コレクション | タスク | 文書データ | タスク データ | |||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | 検索課題 | 適合判定 | |||
言語 | # | |||||||||
NTCIR-4 QA |
QAC2 |
新聞記事 |
ntc4-j01-mai98.txt |
J |
1998 |
約12万 |
約135Mb |
J |
質問 |
2 (3) |
ntc4-j01-mai99.txt |
1999 |
約11万 |
約143Mb |
|||||||
ntc4-j01-yomi98.txt |
1998 |
約13万 |
約183Mb |
|||||||
ntc4-j01-yomi99.txt |
1999 |
約24万 |
約312Mb |
文書データは,以下の二種類のものを用います.日本語新聞記事データ入手方法参照
読売新聞日本語処理研究用記事データ1998,1999年版は,研究利用目的のための利用を前提として,日本データベース開発株式会社から研究利用許諾を得ることができます.記事は,yomi2ntcir.plを用いてNTCIR標準フォーマットに変換されたものを標準とします.
QAC-1と同じく基本的に3種類とします.基本的にはQAC-1で設定したものを基にしており,QAC-1とのタスクの違いは以下のとおりでです.
subtask2については,リスト型の質問として可能なすべての回答を返す質問文をsubtask1とは別に設定します.
subtask3の枝問には,複数のものを設定します.(QAC-1では1つの枝問のみを設定)
対象となるテキストが増えます.(QAC-1では毎日新聞98,99年)
質問文表現については,文末表現の省略などの省略が存在する場合があります.(QAC-1ではフルのセンテンス)
回答の表現は,知識源である新聞記事中に現れている表現そのものであるとします.(QAC-1では必ずしも現れている必要はありませんでした)
根拠情報として回答を抽出した記事IDを返すものとします.(QAC-1では根拠情報はオプション)
設定した3種類のタスクのほかに参照タスクを設定をしています.
すべての質問は,回答が存在しない場合があり,回答が唯一であるとは限りません.
質問ファイルは以下の形式を持つ行の並びとします.
[質問ID]: "[質問文]"<CR>
[質問ID]の形式は,[質問セットID]-[質問番号]-[枝問番号]
[質問セットID]は英数字4文字,[質問番号]は,数字5文字,[枝問番号]は数字2文字.
[質問文]は,全角文字の並び.句読点は「、」と「。」とし,「?」は用いない.
回答ファイルは以下の形式を持つ行の並びとします(いわゆるcsv形式).
注意事項---
お申込み --- QAC2テストコレクションの申込み方法は次の通りです。NIIから配布するものはいずれも無料です。
- NTCIR-4 QAC2タスクデータは、NIIのIDRからダウンロードできます:
https://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
参考書類 ---
お問い合わせ先 ---
idr-ntcir