[Date Prev][Date Next][Date Index]

[ntcir:324] CFP: NTCIR-8 Community QA Pilot Task






              CALL FOR PARTICIPATION
           NTCIR-8 Community QA Pilot Task
 http://research.nii.ac.jp/ntcir/ntcir-ws8/yahoo/index-en.html



Dear All,


We are very pleased to announce that NTCIR-8 plans a pilot 
task using a Community QA dataset from Yahoo! Japan.

The importance of the Community QA like Yahoo! Answers 
has been increased in our ordinary life. Wide variety of
questions are asked and answered. It also provides a good
opportunity to investigate the real users' (a kind of)
relevance judgments for the "best answers" in large-scale.

We are fortunately provided a large-scale Community QA
dataset from Yahoo! Japan for research purpose.
It consists of about 100,000,000 items (about 100 GB).
Then we plan a pilot task using the dataset as following;


1.Task:
  A. Main Task:  Best Answer Estimation
  B. Sub Task:  Question Type Classification


2. Data set:

100,000,000 items from Yahoo! Japan's "Yahoo! Chiebukuro"
(http://chiebukuro.yahoo.co.jp/), a Community-based
QA site which is equivalent to Yahoo! Answers. It consists
of about 26,000,000 questions and 76,000,000 answers to
the questions, about 100 GB in total. All items are written
in Japanese.


Main task:
- Training data will be more than 99% of the above
 including the best answer specification.

- Test data will be several thousand questions
 and their answers discarded the best answer specification.

Subtask:
- In addition to the above, set of questions/answers which
manually annotated question types for training and
for evaluating the test results.


3. Task Sketch

Main Task:
 All the participants are expected to submit the
result to Main Task. In the test, we will use the
"Best answers" selected by the askers.


Subtask (optional):
 As Community QA has the wide variety of question
types from simple factoid/navigate questions which
often input to the ordinary web search engines to
those asking the advises or opinions from the community.

To improve the effectiveness of the best answer
estimation and investigating users' intentions,
question types is one of the clues. Then we are
interested in to test the automatic classification
of the question types, and see the effectiveness
of the question type classification in the best answer
estimation.

We will propose a question type classification scheme,
and provide a training set and the answers for the
test set which containing manually annotated question
types.

The participants can propose their own classification
scheme other than one provided by NTCIR, do the question
type annotation, and test the effectiveness of those
classification in the best answer type estimation over
the runs without question types and/or those with the
other set of question types including the one which
NTCIR will provide.


4. Task Organizers and Contact Information:

Daisuke Ishikawa and Noriko Kando (NII)
Email: ntcadm-yahoo (at) nii.ac.jp

Discussion List: ntc-yahoo (at) nii.ac.jp


The task design is still rough, and you are welcome
to join the discussion on the task design and evaluation
methodology.

Please consider to participate in this new exciting
task.


5. How to Participate:

To join the discussion mailing list, please email to
ntcadm-yahoo (at) nii.ac.jp.


To register as a participant, please read the "How to
participate" at;
http://research.nii.ac.jp/ntcir/ntcir-ws8/howto-en.html,

then register at;
http://research.nii.ac.jp/ntcir/ntcir-ws8/ntcir8regist-e.html
by selecting "pilot task" at the bottom of the form
and describe "Community QA Task" in the box for the system
description.

You are most welcome to join us!


Noriko Kando and Daisuke Ishikawa
---
ntcir project

================================

               タスク参加者募集
       NTCIR-8 コミュニティQA・パイロットタスク  
http://research.nii.ac.jp/ntcir/ntcir-ws8/yahoo/index-ja.html



NTCIR-8では、「Yahoo!知恵袋コーパス ver.2」(約1億件、
100GB)を使ったパイロットタスクを計画しています。

われわれの日常の生活の中で、Yahoo!知恵袋、はてな、教
えてGooなどのコミュニティQAの重要性はますます高まって
います。コミュニティQAサイトには、多様な質問がポスト
され、回答されています。また、「ベストアンサー」選定
という形で、回答に対するユーザ自身による(ある種の)適
合性判定を大規模に調査することも可能です。

今回、幸いにも、Yahoo! Japan社から、大規模なYahoo!
知恵袋コーパス ver.2を提供いただける運びとなり、それを
用いたパイロットタスクを以下のように企画しています。

1.タスク:
  A. メインタスク:  ベストアンサーの推定
  B. サブタスク:  質問タイプ分類


2. データセット:

Yahoo! 知恵袋*コーパス ver.2**。約1億件。約2600万質問とそれに
ついての回答データ7600万件、合計およそ100GB。言語は日本語。

 * Yahoo! 知恵袋: http://chiebukuro.yahoo.co.jp/
** Yahoo! 知恵袋コーパス ver.2のプレスリリース:
http://www.nii.ac.jp/index.php?action=pages_view_main&page_id=888


A.メインタスク用データ(案):
- 訓練用データは、上記の99%以上。どの回答がベストアンサ
 ーとして選定されたかというデータを含みます。

- テスト用データは、数千件の質問とそれに対する回答データ。
 どの回答がベストアンサーとして選定されたかは除外します。


B.サブタスク用のデータ(案):
- 上記のデータに加え、人手で質問タイプを分析した質問と回答
のセットを訓練用データとして、および、テスト結果を評価する
ための正解データとして用意します。



3. タスクの概要とポイント:

A.メインタスク:
 メインタスクへの参加は原則として必須です。評価では、質問者
自身が選定したベストアンサーを使用する予定です。


B.サブタスク:
 コミュニティQAサイトには多様な質問が寄せられます--
事実を尋ねる質問や特定のWebサイトを探すための質問など
比較的単純なものから、あることがらについてコミュニティ
から助言や意見を求めるものや他の人の経験や考えを尋ねる
どちらかといえばある種のアンケート的なものまであります。

ベストアンサー推定や利用者の質問意図研究の精度の向上の
ためには、質問タイプの分類が一つの手がかりになると考え
られます。そこで、本パイロットタスクでは、質問タイプの
自動分類を評価し、質問タイプ分類のベストアンサー推定
技術への効果を調べようと考えています。

質問タイプについては、NTCIRから一つの分類体系を提案し、
みなさんとの協議のあと、その体系に従って、人手で分類
した質問データを訓練用とテストの正解データとして作成
します。

また、参加チームは、独自の分類体系を提案し、それにした
がって人手で質問データを分類し、その分類体系がベスト
アンサー推定に及ぼす効果を調べたり、他の分類体系による
効果と比較をすることも歓迎します。



4. タスクオーガナイザ・連絡先:

石川 大介(いしかわ だいすけ)(NII)
神門 典子(かんど のりこ) (NII)
Email: ntcadm-yahoo (at) nii.ac.jp

議論用のメーリングリスト:
ntc-yahoo (at) nii.ac.jp


タスク設計は、まだ、十分に詳細化していません。タスク設計、
評価指標、質問タイプ分類についての議論に、ぜひ、ご参加
ください。

そして、この新しいタスクへの参加を、ぜひ、ご検討ください。



5.参加方法:

議論用メーリングリストへの参加は、タスクオーガナイザ(石川
大介、神門典子)あてに、ntcadm-yahoo (at) nii.ac.jpに
メールをお送りください。


参加者としての登録は、下記の参加申込みの手引きをご覧になり、
http://research.nii.ac.jp/ntcir/ntcir-ws8/howto-ja.html,

以下のオンラインフォームから登録してください。
http://research.nii.ac.jp/ntcir/ntcir-ws8/ntcir8regist.html

その際、フォーム最下部の「パイロットタスク」を選択し、フォー
ム中ほどの「システムの説明」ボックスに、「コミュニティQAタスク」
参加希望と記入してください。

みなさまの参加をお待ちしています!


神門典子、石川大介
---
ntcir project