正解判定の形式
0001 C gakkai-0000010176 0
0001 A gakkai-0000010187 1
0001 C gakkai-0000010218 0
0001 C gakkai-0000010219 0
0001 C gakkai-0000010220 0
0002 A gakkai-0000010187 1
0002 A gakkai-0000010221 1
0002 C gakkai-0000010222 0
0002 C gakkai-0000010231 0
正解判定には、検索要求に完全に適合する「A」と、 部分的に適合する「B」の2段階
があります。人間の判定者が内容を検討した後、不適合と判定したものは、「C」とな
っています。
正解判定結果のファイルに文書IDが含まれないものは、さまざまな手法で検索して
も、正解候補として検索されなかったもので、判定者が直接内容を吟味したわけ
ではありませんが、不適合であると想定しています。
再現率(Recall)と精度(Precision)を計算するには、判定結果を2値(0/1)で表わす必要があります。
そこで、正解判定結果には、「正解ファイル」、「部分正解ファイル」の2つが
あります。正解ファイルは、A判定のみを正解(1)とし、BとCを不正解(0)として
います。部分正解ファイルでは、A判定とB判定を正解(1)とし、C判定を不正解(0)
としています。
正解判定結果リストは以下のような形式になっています。
検索課題番号 ダミーフィールド 文書番号 判定結果
- 各カラムの区切りはタブ1個です。
- 検索課題番号の昇順に並んでいます。同一検索課題番号内では文書番号の昇順です。
- 検索課題番号は検索課題の番号です。
- ダミーフィールドは3値(「正解」=「A」、「部分的な正解」= 「B」、
「不正解」=「C」)での検索結果を表していますが、精度等の計算には使用しません。
- 文書番号は文書の番号であり、文書のACCNフィールドに一致します。
- 判定結果は2値の 0/1であり、「0」が「不正解」、「1」が正解を表わします。