NTCIR Project
NTCIR-8 CQA(コミュニティQAテストコレクション)
データ利用手続き (研究目的用)

[ENGLISH] [NTCIR ホーム] [NTCIR データ Home]


NTCIR-8 CQA (コミュニティQA テストコレクション)


このテストコレクションは,CQAサイトにおける回答の品質を評価するために利用可能です.
このテストコレクションは,以下のデータからなります.

- Yahoo知恵袋データ第一弾から抽出した1500件の質問
- 判定者4名による判定結果
- IDリスト,ベストアンサーリスト,カテゴリ情報など

より詳細な情報は,テストコレクションに含まれるREADME もしくは Overview 論文 (Part I & Part II)をご参照ください.

コレクション タスク 文書データ タスクデータ
ジャンル ファイル名 言語 年度 文書数 サイズ ファイル名 言語 件数 適合判定
NTCIR-8 CQA answer quality ranking QA site on Web 「Yahoo!知恵袋」データ J Apr.
2004
to Oct.
2005
解決済みの質問 :3,116,009件 約916MB NTCIR-8 CQA Test Collection J

質問 1,500件

2段階(質問),
4段階(回答)
ベストアンサー :3,116,008件 約935MB
回答 7,443件 ベストアンサー 1,500件
それ以外の回答: 10,361,777件 約2.3GB それ以外の回答 5,943件

--- 全データをNII IDR事務局から提供します.

ファイル名 入手方法
文書データ 「Yahoo!知恵袋」データ 「Yahoo!知恵袋」データは、国立情報学研究所 IDR事務局より研究者の方々に提供されています。
データの入手方法については、こちらのページをご覧ください。
http://www.nii.ac.jp/dsc/idr/yahoo/yahoo.html 
タスクデータ NTCIR-8 CQA NTCIR-8 CQA」テストコレクションは、国立情報学研究所 IDR事務局より研究者の方々に提供されています。
本データは、「Yahoo!知恵袋」データの利用許諾を受けた方のみ、利用可能です。
データの入手方法については、こちらのページをご覧ください。
http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html

文書データ, 検索課題および適合判定

 文書データ 
文書データは,Yahoo知恵袋データを使用します.
Yahoo知恵袋データについては,IDR事務局のサイトをご覧ください.


 

タスクデータは,質問1500件と,回答7443件で構成されています.
判定者4名によって,質問の質は2段階(A/B)に評価され,回答の質は3段階(A/B/C)に評価されています.
そのため,最も質の高い回答と最も質の低い回答は,それぞれAAAA,CCCCとして表記されています.

CQAタスクでは,この3段階の評価パターンを,L3(高い適合), L2(適合),L1(部分適合), L0(不適合) の4段階の適合パターンへ写像しました (Overview論文 PartII の表2を参照ください).

入手方法

お申込み --- NTCIR-8 CQAテストコレクションは、国立情報学研究所 IDR事務局から提供しています。NIIから配布するものはいずれも無料です。

参考書類 ---        


お問い合わせ先
 ---
 

(1) データ申込方法に関して

     国立情報学研究所 IDR事務局
     Email: idr

     Phone: 03-4212-2503
    ※問い合わせ等はできるだけ電子メールでお願いします。

(2) データ形式や利用方法など技術的なことに関して

     国立情報学研究所 NTCIR プロジェクトグループ
     Email: ntc-admin

     Phone: 03-4212-2529
    Fax: 03-4212-2751