評価尺度
当サイトで配布している評価スクリプトを使用することで,破綻検出の精度を評価することができます.
実行方法についてはこちら.もしくは評価スクリプト(eval_script.zip)内のREADMEを参照してください.
評価スクリプトを実行すると,複数の評価尺度による評価結果を得ることができます.
なお,評価尺度は今後追加される可能性があります.
各評価尺度の詳細は以下の通りです.
Accuracy
全ラベルの一致率です.検出結果全体の正解率を測ることができる尺度です.
Precision, Recall, F-measure (X)
破綻ラベルXの検出に関する精度・再現率・F値です.
破綻検出の正確性(Precision),網羅性(Recall),およびそれらの調和平均(F-measure)を測ることができる尺度です.
Precision, Recall, F-measure (T+X)
ラベルTとXを同一の破綻ラベルとみなした場合の精度・再現率・F値です.
JS divergence (O, T, X)
Jensen–Shannon divergenceによる分布間の距離です.
予測したラベルごとの割合の分布と,正解の割合の分布が一致した時に0となり,分布間の差が大きくなるとこの値は大きくなります.
JS divergence (O, T+X)
ラベルTとXを同一の破綻ラベルとみなした場合のJensen–Shannon divergenceによる分布間の距離です.
JS divergence (O+T, X)
ラベルOとTを同一のラベルとみなした場合のJensen–Shannon divergenceによる分布間の距離です.
Mean squared error (O, T, X)
分布間の平均二乗誤差です.
予測したラベルごとの割合が正解からどの程度乖離しているかを測ることができる尺度です.
Mean squared error (O, T+X)
ラベルTとXを同一の破綻ラベルとみなした場合の分布間の平均二乗誤差です.
Mean squared error (O+T, X)
ラベルOとTを同一のラベルとみなした場合の分布間の平均二乗誤差です.