NTCIR-8では、「Yahoo!知恵袋コーパス ver.2」(約1億件、
100GB)を使ったパイロットタスクを計画しています。
われわれの日常の生活の中で、Yahoo!知恵袋、はてな、教
えてGooなどのコミュニティQAの重要性はますます高まって
います。コミュニティQAサイトには、多様な質問がポスト
され、回答されています。また、「ベストアンサー」選定
という形で、回答に対するユーザ自身による(ある種の)適
合性判定を大規模に調査することも可能です。
今回、幸いにも、Yahoo! Japan社から、大規模なYahoo!
知恵袋コーパス ver.2を提供いただける運びとなり、それを
用いたパイロットタスクを以下のように企画しています。
- 1.タスク:
- A.メインタスク: ベストアンサーの推定
- B.サブタスク: 質問タイプ分類
- 2.データセット:
Yahoo! 知恵袋*コーパス ver.2**。約1億件。約2600万質問とそれに
ついての回答データ7600万件、合計およそ100GB。言語は日本語。
* Yahoo! 知恵袋
** Yahoo! 知恵袋コーパス ver.2のプレスリリース
- A.メインタスク用データ(案):
- 訓練用データは、上記の99%以上。どの回答がベストアンサー
として選定されたかというデータを含みます。
- テスト用データは、数千件の質問とそれに対する回答データ。
どの回答がベストアンサーとして選定されたかは除外します。
- B.サブタスク用のデータ(案):
- 上記のデータに加え、人手で質問タイプを分析した質問と回答
のセットを訓練用データとして、および、テスト結果を評価する
ための正解データとして用意します。
- 3.タスクの概要とポイント:
- A.メインタスク:
メインタスクへの参加は原則として必須です。評価では、質問者
自身が選定したベストアンサーを使用する予定です。
- B.サブタスク:
コミュニティQAサイトには多様な質問が寄せられます--
事実を尋ねる質問や特定のWebサイトを探すための質問など
比較的単純なものから、あることがらについてコミュニティ
から助言や意見を求めるものや他の人の経験や考えを尋ねる
どちらかといえばある種のアンケート的なものまであります。
ベストアンサー推定や利用者の質問意図研究の精度の向上の
ためには、質問タイプの分類が一つの手がかりになると考え
られます。そこで、本パイロットタスクでは、質問タイプの
自動分類を評価し、質問タイプ分類のベストアンサー推定
技術への効果を調べようと考えています。
質問タイプについては、NTCIRから一つの分類体系を提案し、
みなさんとの協議のあと、その体系に従って、人手で分類
した質問データを訓練用とテストの正解データとして作成
します。
また、参加チームは、独自の分類体系を提案し、それにした
がって人手で質問データを分類し、その分類体系がベスト
アンサー推定に及ぼす効果を調べたり、他の分類体系による
効果と比較をすることも歓迎します。
- 4.タスクオーガナイザ・連絡先:
石川 大介(いしかわ だいすけ)(NII)
神門 典子(かんど のりこ) (NII)
Email: ntcadm-yahoo
議論用のメーリングリスト:
ntc-yahoo
タスク設計は、まだ、十分に詳細化していません。タスク設計、
評価指標、質問タイプ分類についての議論に、ぜひ、ご参加
ください。
そして、この新しいタスクへの参加を、ぜひ、ご検討ください。
- 5.参加方法:
議論用メーリングリストへの参加は、
タスクオーガナイザ(石川大介、神門典子)あてに、
ntcadm-yahoo
までメールをお送りください。
参加者としての登録は、
こちら
の参加申込みの手引きをご覧ください.
手引き確認後,よろしければ
こちら
のオンラインフォームから登録してください。
その際、フォーム最下部の「パイロットタスク」を選択し、フォー
ム中ほどの「システムの説明」ボックスに、「コミュニティQAタスク」
参加希望と記入してください。
みなさまの参加をお待ちしています!
神門典子、石川大介
ntcir project