Résumé | Le présent document présente un algorithme simple d'apprentissage sans surveillance pour la reconnaissance de synonymes, fondé sur des données statistiques acquises au moyen de l'interrogation d'un moteur de recherche sur Internet. L'algorithme, appelé PMI-IR, utilise l'information mutuelle instantanée (PMI) et la recherche de l'information (IR) pour mesurer la similarité de paires de mots. La PMI-IR est évaluée empiriquement au moyen de 80 questions de vérification de synonymes tirées du Test of English as a Foreign Language (TOEFL) et de 50 questions de vérification de synonymes tirées d'une série du test d'anglais, langue seconde (ESL). Pour les deux tests, l'algorithme obtient une note de 74 %. La PMI-IR est comparée à l'analyse sémantique latente (LSA), qui obtient une note de 64 % à la même série de 80 questions du TOEFL. Dans le document, nous examinons des applications possibles du nouvel algorithme d'apprentissage sans surveillance et certaines répercussions des résultats pour la LSA et l'indexation sémantique latente (LSI). |
---|