Résumé | Ce mémoire cherche à résoudre un problème de classification de textes (CT) dans un système réel, le Réseau des opportunités du Nouveau Brunswick (NBON), un système d'appels d'offres en ligne grâce auquel les fournisseurs et les acheteurs peuvent fournir et obtenir des renseignements sur les occasions d'affaires. La solution concernée fait appel essentiellement à des techniques dans les domaines de l'apprentissage machine et du traitement des langues naturelles (TLN). Nous employons un classifieur bayésien naïf, qui met en oeuvre une approche simple et efficace de l'apprentissage machine appliquée aux tâches de CT, pour classifier automatiquement les offres dans le système NBON. Dans ce classifieur bayésien naïf, nous mettons en oeuvre trois algorithmes de lissage, à savoir les algorithmes de non concordance, de correction de Laplace et de la loi de succession de Lidstone, et nous montrons que, en ce qui concerne la précision, les différences entre les résultats obtenus pour ces trois algorithmes sont négligeables. Nous montrons également que le classifieur bayésien naïf présente une efficacité supérieure à celle de trois autres techniques simples de CT, à savoir la technique des prédicteurs forts (une variante de la technique fondée sur la fréquence des termes), la technique TF IDF (Term Frequency - Inverse Document Frequency ou fréquence des termes - fréquence inverse dans les documents), et la technique WIDF (Weighted Inverse Document Frequency ou fréquence inverse pondérée dans les documents). Nous avons adopté des outils de TLN comme les listes d'exclusion et les radicaliseurs pour les opérations textuelles sur les données historiques du réseau NBON qui sont utilisées pour assurer l'apprentissage des classifieurs. Nous avons fait des expériences avec des variantes de ces outils et montrons que les techniques du TLN n'ont pas beaucoup d'effets sur leur efficacité. |
---|