NTCIR-3 QAC Task: Scoring Tool Ver. 1.50 (2002. 8. 30.) Copyright. QAC Task Committee. 2002. R. Nagata. 2002. F. Masui. 2002. スコアリングツール scoring.pl の概要 本プログラムは,QAC のシステム回答の評価支援ツールです. 本ツールは,Task1 および Task2,Task3 において利用できます. 本ツールは,解答セットと照らし合わせて,システム回答(※1) が解答(※2)と一致しているかどうかをチェックして採点し,そ の結果と統計量を出力します. ※1 採点の対象となる(システムが出力した),各質問に対する 答(質問IDを含む)を,システム回答,その集合を,システ ム回答セットと呼ぶことにします. ※2 採点のために用いる,各質問に対する正解(質問IDを含む) を,解答,その集合を解答セットと呼ぶことにします. 使用法 scoring.pl [OPTIONS] FILENAME FILNAME: 採点対象の回答(システム回答)セットファイル名 OPTIONS: --answer|-a filename 解答(正解)セットのファイル名を指定します. このとき,解答データの文字コードは,システム 回答と同じものにして下さい.(※ 自動判定にする 予定です) --help|-h ヘルプを出力します. --version|-v プログラムバージョンを出力します. --task|-t number タスクを数字で指定します.現在,1〜3が指定 可能です.1はタスク1,2はタスク2を示します. ※実は4も指定できます. --extract|-e number ファイルからのデータ抽出を指定します.現在, 1,2,3が指定できます.各数字の意味は下記を参照 して下さい. 1 は,解答セットに関する情報を取り出します. 質問ID,総解答数,異り解答数,解答番号,解答, 記事番号,を出力ます. 例) QAC1-1034-01 3 2 1 3500 三重大学 991208045 1 3500 三重大学 980717035 2 1200 三重大 990904183 2 は,システム回答セットに関する情報を取り出しま す.質問ID,総回答数,回答番号,回答,記事番号 を出力します. 例) QAC1-1019-01 5 0 三重大学 990807065 1 立命館大学 990807065 2 東京大学 990807065 3 沖電気 980219267 4 NTT 990807065 3 は,システム回答セット中の正解に関する詳細情 報を取り出します.正解文字列,正解した回答と一 致した解答番号を出力します.解答番号の前に付与 される記号の '-'は,文字列が解答と一致したもの の,記事番号が不一致であったことを意味します. 例) 三重大学 | -1 三重大学 | -1 立命館大学 | 2 4 は,タスク2 における各質問毎のスコアを出力し ます.このオプションはタスク2においてのみ有効 です. 質問番号,解答数,回答数,正解した回答数, F-measure の順で出力します. 例) QAC1-2146-01: 1 5 1 0.333333 5 は,質問毎のチェックに有効な情報を出力します. まず,一行目に質問番号と質問文を出力します. 二行目には,解答を列挙します.三行目以降には,回答 を順に出力し,正解した回答には,右側にアスタリスク でマークします.現在,このオプションは,タスク1に おいてのみ有効です. 例) QAC1-1100-01 "三重大学はどこにありますか。" CORRECT ANSWER: 三重県 三重県津市 三重県津市上浜町 三重県津市上浜町1515 津市 江戸橋 三重県 * 伊勢志摩 津駅 情報工学科 津市 * DESCRIPTION 入力: 本ツールは,QACタスク定義に基づく解答/回答 フォーマットに基づくテキストファイルを入力とし て受取ります.ファイル中の,'#'で始まる行は,全 てコメント行として解釈し,無視されます. 出力: 本ツールは,採点した結果(スコア情報)を,標準出 力に出力します. 例) Task1 Results: 35.0 marks out of 200.0 in TASK1 Average score: 0.175 最初に,いずれのタスク結果であるかを示します. 次の行では,システム回答のスコア(例``35.0'')およ び,満点の場合のスコア(例``200.0'')を示します. 二番目の行には,平均スコアを表示します. 各タスクにおけるスコアは,以下のようにして求められま す. タスク1:各質問文に対する回答が正解であるかどうかを 判定し,最も高順位の正解について, その順位の逆数(RR) を合計して求めます(MRR). タスク2:各質問文に対する回答が正解であるかどうかを 判定し,各質問毎のF値の平均(Average F-measure)を求め ます. タスク3:各質問文に対する回答が正解であるかどうかを 判定し,各枝問のF値の平均(Average F-measure)を求めま す. 本ツールは,採点した結果(スコア情報)の簡単な集計 を標準出力に出力します. 例) ---------------------------------------------------------- Question Answer Output Correct ---------------------------------------------------------- 200 272 694 64 ---------------------------------------------------------- Question: タスクにおける総質問数 Answer: 総異り解答数 Output: 総システム回答数 Correct: システム回答中の異なり正解数 本ツールは, 採点した結果(スコア情報の)簡単な統計 量を標準出力に出力します. 例) ---------------------------------------------------------- Recall Precision F-measure MRR/AFM ---------------------------------------------------------- 0.211 0.078 0.114 0.175 ---------------------------------------------------------- 各数値は以下のように定義されます. Recall = システム回答セット中の総正解数/総解答数 Precision = システム回答セット中の総正解数/総システム回答数 F-measure = (2 * Recall * Precision)/(Recall + Precision); MRR = RRの合計/総質問数 本ツールは,システム回答セットに対する採点結果を, 'res.dat'というファイルに出力します. 'res.dat' には,システム回答セットに含まれる各回答が, 正解(解答と一致した)であったか,不正解(一致しなかっ た)であったかに関する情報が記述されています. ある回答が正解であった場合,回答の右側に '○'が付与 されます.もし不正解であった場合,回答の右側に '×' が付与されます. 例) QAC1-1020-01: 津新町 ○, 江戸橋 ○, 大阪城北詰 ×, 南森町 ×, 駒場東大前 ○ res.dat中の``φ''は,システムが何も回答しなかった(答 えが無いと回答した)と見倣します.この場合,``○''は, 質問文に対する解答が存在しない場合にのみ付与されます. EOF