Résumé | Nous présentons un algorithme d'apprentissage sans supervision qui extrait de grands corpus de texte pour y détecter des modèles qui expriment des relations sémantiques implicites. Pour une paire donnée X : Y de mots d'entrée sans indication précise de certaines relations sémantiques, la liste de sortie correspondante des modèles (P₁,…,Pₘ) est classée d'après le degré auquel chaque modèle Pᵢ exprime les relations entre X et Y. Par exemple, si autruche = X et oiseau = Y, les deux modèles de sortie en tête du classement sont "X est le plus gros Y" et "Y tels que les X". Les modèles de sortie devraient s'avérer utiles dans les recherches d'autres paires comportant les mêmes relations à l'appui de la préparation de lexiques, d'ontologies et de réseaux sémantiques. Les modèles sont triés d'après leur pertinence, la pertinence d'un modèle Pᵢ pour une paire de mots X : Y étant la similarité des relations à laquelle on s'attend entre les éléments de la paire donnée, et les paires typiques pour Pᵢ. L'algorithme est évalué de façon empirique en ce qui concerne deux tâches, c'est-à-dire la réponse à des questions à choix multiples sur l'analogie de mots SAT et le classement de relations sémantiques dans des paires noms-déterminants. Dans le cas des deux tâches, l'algorithme permet d'obtenir des résultats de pointe, son rendement étant nettement supérieur à celui de plusieurs autres algorithmes de classement de modèles fondés sur la pondération tf-idf. |
---|