Résumé | Dans de nombreuses revues scientifiques, on demande aux auteurs de fournir une liste d'environ cinq à quinze mots-clés devant figurer sur la première page de chaque article. Étant donné que ces mots-clés constituent souvent des termes de deux mots ou plus, nous préférons parler de termes-clés. Il existe une variété incroyable de tâches pour lesquelles les termes-clés sont utiles, comme nous discutons dans la présente. Des logiciels commerciaux récents, comme Verity's Search 97 et Word 97 de Microsoft, comprennent des algorithmes qui permettent l'extraction automatique de termes-clés dans des documents. Dans la présente, nous soulevons le problème de l'extraction automatique de termes-clés dans du texte, comme tâche d'apprentissage supervisée. Nous considérons un document comme un ensemble de termes que doit apprendre l'algorithme d'apprentissage afin de les classer comme des exemples positifs ou négatifs de termes-clés. Notre première série d'expériences met en pratique l'algorithme d'induction de l'arbre de décision C4.5 à la tâche d'apprentissage. La deuxième série d'expériences met en pratique l'algorithme GenEx à cette tâche. Nous avons élaboré l'algorithme GenEx précisément à cette tâche. La troisième série d'expériences examine les performances de GenEx sur la tâche de production des métadonnées, par rapport à celles de Word 97 de Microsoft. Dans la quatrième et dernière série d'expériences, on étudie les performances de GenEx sur la tâche de mise en surbrillance, par rapport à Verity's Search 97. Les résultats des expériences soutiennent la thèse à l'effet que l'algorithme d'apprentissage spécialisé (GenEx) peut produire de meilleurs termes-clés que l'algorithme d'apprentissage général (C4.5) et que les algorithmes de non-apprentissage utilisés dans les logiciels commerciaux (Word 97 et Search 97). |
---|