Résumé | Cet article montre comment l'apprentissage machine peut aider à analyser et à comprendre le changement historique. À laide de données tirées du recensement du Canada de 1901, nous découvrons les influences exercées sur le bilinguisme au Canada, au début du siècle dernier. Les théories découvertes concordent en partie avec les opinions exprimées par les historiens sur cette question et complètent en partie ces opinions. En plus d'élaborer des théories directement sur la base des données, notre approche, qui s'articule sur un arbre de décision, évalue les théories existantes et les révise pour en améliorer la concordance avec ces données. Un aspect inédit de ce travail est l'utilisation des intervalles de confiance pour déterminer quels facteurs ont une importance à la fois statistique et pratique et contribuent ainsi sensiblement à garantir l'exactitude générale de la théorie. Lorsqu'on établit un arbre de décision directement sur la base de données, les intervalles de confiance déterminent quand il faut ajouter de nouveaux tests. Si l'on évalue une théorie existante, les intervalles de confiance déterminent également quand il faudrait remplacer ou supprimer les anciens tests pour améliorer la théorie. Notre but est de réduire au minimum les changements apportés à une théorie existante en fonction des nouvelles données. À cette fin, nous proposons une mesure de similarité sémantique entre les arbres et démontrons comment on peut s'en servir pour limiter ces changements. |
---|