[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]
このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です.
このテストコレクションは,以下のデータからなります.
- Yahoo知恵袋データ第一弾から抽出した1500件の質問
- 判定者4名による判定結果
- IDリスト,ベストアンサーリスト,カテゴリ情報など
より詳細な情報は,テストコレクションに含まれるREADME もしくは Overview 論文 (Part I & Part II)をご参照ください.
コレクション | タスク | 文書データ | タスクデータ | |||||||||
ジャンル | ファイル名 | 言語 | 年度 | 文書数 | サイズ | ファイル名 | 言語 | 件数 | 適合判定 | |||
NTCIR-8 CQA | answer quality ranking | QA site on Web | 「Yahoo!知恵袋」データ | J | Apr. 2004 to Oct. 2005 |
解決済みの質問 :3,116,009件 | 約916MB | NTCIR-8 CQA Test Collection | J |
質問 1,500件 |
2段階(質問), 4段階(回答) |
|
ベストアンサー :3,116,008件 | 約935MB | |||||||||||
回答 7,443件 | ベストアンサー 1,500件 | |||||||||||
それ以外の回答: 10,361,777件 | 約2.3GB | それ以外の回答 5,943件 |
--- 全データをNII IDR事務局から提供します.
ファイル名 | 入手方法 | |
文書データ | 「Yahoo!知恵袋」データ | 「Yahoo!知恵袋」データは、国立情報学研究所 IDR事務局より研究者の方々に提供されています。 データの入手方法については、こちらのページをご覧ください。 http://www.nii.ac.jp/dsc/idr/yahoo/yahoo.html |
タスクデータ | NTCIR-8 CQA | 「NTCIR-8 CQA」テストコレクションは、国立情報学研究所 IDR事務局より研究者の方々に提供されています。 本データは、「Yahoo!知恵袋」データの利用許諾を受けた方のみ、利用可能です。 データの入手方法については、こちらのページをご覧ください。 http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html |
文書データは,Yahoo知恵袋データを使用します.
Yahoo知恵袋データについては,IDR事務局のサイトをご覧ください.
タスクデータは,質問1500件と,回答7443件で構成されています.
判定者4名によって,質問の質は2段階(A/B)に評価され,回答の質は3段階(A/B/C)に評価されています.
そのため,最も質の高い回答と最も質の低い回答は,それぞれAAAA,CCCCとして表記されています.
CQAタスクでは,この3段階の評価パターンを,L3(高い適合), L2(適合),L1(部分適合), L0(不適合) の4段階の適合パターンへ写像しました
(Overview論文 PartII の表2を参照ください).
お申込み --- NTCIR-8 CQAテストコレクションは、国立情報学研究所 IDR事務局から提供しています。NIIから配布するものはいずれも無料です。
- 文書データ お申し込み手続き:「Yahoo!知恵袋」データ
- タスクデータ お申し込み手続き:NTCIR-8 CQAテストコレクション
本データは、必ず「Yahoo!知恵袋」データ と併せてご利用いただくデータです。既に文書データ(Yahoo! 知恵袋データ)をご利用中で、タスクデータのみお申し込みの場合のお手続きについては、IDR事務局 Email: idr までお問い合わせください。
参考書類 ---
お問い合わせ先 ---
(1) データ申込方法に関して
国立情報学研究所 IDR事務局
Email: idr
Phone:
03-4212-2503
※問い合わせ等はできるだけ電子メールでお願いします。
(2)
データ形式や利用方法など技術的なことに関して
国立情報学研究所 NTCIR プロジェクトグループ
Email:
ntc-admin
Phone:
03-4212-2529
Fax: 03-4212-2751