本ドキュメントでは、コストセンシティブ学習(Cost-Sensitive Learning) の基本前提を明確にしたうえで、
TD AutoML(AutoGluon)で利用可能な optimization function / evaluation metric のうち、
実務的にコストセンシティブ学習に使える指標を整理・解説します。
参考:
- Mercari Engineering Blog
https://engineering.mercari.com/blog/entry/20201212-cost-sensitive-learning-for-application/#2-2
コストセンシティブ学習では、予測結果に応じた コスト関数
(予測
2値分類($y \in {0,1}$)の場合、一般に次のコスト行列を想定します。
| 真のラベル |
0 | 1 |
|---|---|---|
| 0 | ||
| 1 |
これは
「当てることは安く、外すことは高い」
という、実務上ほぼ必ず成立する前提条件です。
TD AutoML(AutoGluon)では、
- 誤分類コスト行列
$C(\hat{y}, y)$ を直接指定して - 期待コストをそのまま最小化する
という 純粋な cost-sensitive optimization は標準ではサポートされていません。
代わりに、次の 分離設計 を採用します。
確率の質を最適化する学習
+
意思決定段階での閾値(threshold)最適化
log_loss(クロスエントロピー損失)は、正解クラス
と書けます。
- 正解を高確率で当てる → 損失が小さい
- 自信満々で外す → 損失が急激に大きくなる
この性質により、log_loss は
を 数学的に満たす surrogate loss になります。
log_loss は理論的に正しい一方で、人間には直感的に理解しづらい指標です。
PAC score は、log_loss を指数変換することで、
すなわち
と解釈できます。
PAC score は、
- threshold に依存せず
- 確率の「自信度」を直接評価でき
- 期待コストの感覚に近い
という特徴を持つため、説明用・補助評価指標として有用です。
実務では、
- 正例が少ない
- False Positive / False Negative のコストが非対称
という 不均衡データを扱うケースが非常に多くなります。
この状況では、accuracy や ROC-AUC だけでは
実務的な誤りコストの感覚を捉えにくいことがあります。
Average Precision(PR-AUC) は、Precision–Recall 曲線の面積であり、
- Precision(FP に敏感)
- Recall(FN に敏感)
という 誤りの種類そのものを評価に含む指標です。
そのため、
- False Positive が業務コストに直結する
- 正例が少ない不均衡データ
といった条件下では、
cost-sensitive な評価指標として使いやすい特性を持ちます。
👉 その観点で、不均衡データを扱う場合には
average_precision を初手の評価指標として試すことを推奨します。
ROC-AUC はランキング性能を見る指標として有用ですが、
- FP の絶対数が重要なケース
- 陽性を出すこと自体にコストがあるケース
では、評価感覚が実務と乖離することがあります。
このため、
不均衡データにおける cost-sensitive evaluation では、
ROC-AUC より average_precision の方が評価しやすいケースが多い
という位置づけになります。
| 指標 | 主な用途 | 備考 |
|---|---|---|
| accuracy | 全体正解率 | 不均衡データでは不向き |
| balanced_accuracy | クラス補正 | ベースライン |
| ROC-AUC | ランキング評価 | コスト感覚は弱い |
| average_precision (PR-AUC) | FP / FN のトレードオフ | 不均衡データで有効 |
| PAC score | 確率の自信度 | 補助評価に有用 |
-
学習(最適化)
log_loss(+class_weight) -
評価(モデル比較)
- 不均衡データ:
average_precision+PAC - それ以外:
PAC/log_loss
- 不均衡データ:
-
本番意思決定
期待コスト最小となる threshold 最適化
- コストセンシティブ学習の出発点は
$$C(0,0) < C(1,0), \quad C(1,1) < C(0,1)$$ - TD AutoML では
log_loss + 適切な評価指標 + 閾値最適化
によって実務上十分な対応が可能 - average_precision は
不均衡データにおける初手の評価指標として有力