Résumé | Nous présentons un algorithme d'apprentissage sans supervision qui extrait de grands corpus de texte pour y détecter des modèles qui expriment des relations sémantiques implicites. Pour une paire donnée X:Y de mots d'entrée sans indication précise de certaines relations sémantiques, la liste de sortie correspondante des modèles (P<sub><em>1</em></sub>,…,P<sub><em>m</em></sub>) est classée d'après le degré auquel chaque modè;le <em>P<sub>i</sub></em> exprime les relations entre <em>X </em>et <em>Y</em>. Par exemple, si autruche = <em>X</em> et oiseau = <em>Y</em>, les deux modè;les de sortie en tête du classement sont "<em>X</em> est le plus gros <em>Y</em>" et "<em>Y</em> tels que les <em>X</em>". Les modèles de sortie devraient s'avérer utiles dans les recherches d'autres paires comportant les mêmes relations à l'appui de la préparation de lexiques, d'ontologies et de réseaux sémantiques. Les modèles sont triés d'après leur <em>pertinence</em>, la pertinence d'un modè;le <em>P<sub>i</sub></em> pour une paire de mots <em>X:Y</em> étant la similarité des relations à laquelle on s'attend entre les éléments de la paire donnée, et les paires typiques pour <em>P<sub>i</sub></em>. L'algorithme est évalué de façon empirique en ce qui concerne deux tâches, c'est-à-dire la réponse à des questions à choix multiples sur l'analogie de mots SAT et le classement de relations sémantiques dans des paires noms-déterminants. Dans le cas des deux tâches, l'algorithme permet d'obtenir des résultats de pointe, son rendement étant nettement supérieur à celui de plusieurs autres algorithmes de classement de modè;les fondés sur la pondération tf-idf. |
---|