NTCIR Workshop 7 MuST T2N課題 評価結果
[English][NTCIRのホーム]
評価結果
File:
T2N課題 評価結果 [MuSTT2Neval (.xls)]
Readme [README (.rtf) ]
- eval シート
MuST at NTCIR-7 でのT2N課題の評価結果で,以下の形式を持ちます.
task/stat毎に以下が並べてあります.
正解数 再現率の分母です.求め方は後述
抽出数 システムの出力の数
有効抽出数 出力結果の中には,全く同じものが複数含まれていたり,同じ情報を正しく2度抽出していたり,対象外の記事から抽出していたり,抽出記事番号が明記されていなかったりするものがあります.出力のうち,それらを除いたものの数,精度の分母です.
正解 ok(日付と値が正しく抽出されている)のものの数 精度と再現率の分子です
日付誤り date?(値は正しいが日付がおかしい)のものの数
誤り ng(異なる統計量の値である等,値も正しくない)のものの数
未確認 maybe(間接表現を用いて抽出されており,正解判定ができない)のものの数
精度,再現率,F値 そのものです.
あるtask/statについて1件も出力がなかった場合には,空行になっています.ある情報についてokである抽出結果はひとつにしていますが,同じ情
報についてokの出力とdate?の出力が両方ある場合があるので,#ok+#date?+#maybe#ngは抽出数に一致しません.日付が正解である
かの判定基準ですが,例えば,9月の統計量の値が10月3日の記事になっている場合,日付が10月3日でも正解としました.その日に入手てできる最新の情
報ということでまあよいかと思います.4半期データ等範囲のあるものについては,日付がその範囲に入っていれば正解としました.4~6月期であれば,
4/1でも6/30でも5/5でも正解です.その他若干ブレがあるかもしれません.
-
ans シート
task/stat毎に抽出すべき情報の数(正解数)を示したもので,以下の形式を持ちます.
抽出数 いずれかのシステムが抽出していて(date?を含む),抽出リストにあるものの数です.同じ数値については,見出しと本文等,複数箇所に出現し
ていても,どこかのシステムがその両方を抽出していない限りひとつに代表させました(言い換えると,あるシステムが複数箇所の両方を抽出した場合はその両
方を含めています).
間接等 三重大学のシステムが推論等で明示されていない情報を抽出しています.それら等,抽出リストにはないが,あるシステムが抽出している情報の数です.
非抽出 どのシステムも抽出していないが,抽出リストにあるなど,抽出してほしい情報の数です.あまり多くは望まず,これは抽出してほしいというものと,
その記事やそのtaskの抽出結果の参考にして,それができるならこれもできるはずだと考えられるものに限りました(その意味で全体を通しての整合性には
欠けます)
正解数 以上3つの合計です.再現率の分母になっています.間接的な抽出等,システムの範囲外のものまで分母に入れるのはおかしいというご意見はごもっともですが,数が少ないので,まずはお許し下さい.
正解番号 以上3つについて,MuST Change Corpus(本CDROMには含まれていません)の通番(D欄)を示しています.抽出数に関連するものが黒字でその他が赤字です.抽出リストにないものは999~997等の大きな数字がふられています.
[English][NTCIRのホーム]
must-admin