Résumé | Cet article soutient que le fort déséquilibre des classes ne constitue pas seulement un défi technique intéressant, que pourront prendre en charge des algorithmes d'apprentissage améliorés, mais qu'il est beaucoup plus grave. Pour s'avérer utile, un classificateur doit nettement surpasser une solution triviale, comme le choix de la classe majoritaire. Toute application intrinsèquement bruyante limite le taux d'erreur et le coût qu'il est possible d'atteindre. Lorsque les données sont réparties normalement, même un classificateur optimal de Bayes produit une réduction infinitésimale du taux d'erreur et du coût du classificateur majoritaire à mesure que le déséquilibre augmente. Dans le cas des distributions à queue épaisse et lorsqu'on utilise des classificateurs pratiques, aucune réduction n'est souvent possible. |
---|