Résumé | Le présent document réexamine deux techniques d'échantillonnage qui sont couramment utilisées pour adapter des algorithmes machine en vue de tenir compte des classes non équilibrées et des coûts des erreurs de classification. Une technique d'analyse de la performance appelée courbe de coût est utilisée pour explorer l'interaction du suréchantillonnage et du sous-échantillonnage avec le programme d'apprentissage C4.5 de l'arbre de décision. On a choisi le programme C4.5 parce que, combiné avec une des techniques d'échantillonnage, il devient rapidement la norme dans le domaine pour l'évaluation des nouveaux algorithmes d'apprentissage sensibles aux coûts. Le document indique que l'utilisation du programme C4.5 et du sous-échantillonnage permet d'établir une norme raisonnable pour la comparaison des algorithmes. Cependant, on recommande que le classificateur de moindre coût soit intégré à la norme, car il donne des meilleurs résultats que le sous-échantillonnage lorsque les coûts sont relativement modestes. Toutefois, le suréchantillonnage n'est pas très sensible et l'écart de performance est assez faible lorsque les coûts associés aux erreurs de classification sont modifiés. |
---|