Résumé | Nous présentons un algorithme pour l'apprentissage à partir de textes non balisés, basé sur le modèle VSM (pour Vector Space Model ou modèle de l'espace vectoriel) de l'extraction de l'information, qui peut résoudre des questions d'analogie verbale du type de celles que l'on retrouve dans le test d'aptitudes intellectuelles SAT (Scholastic Aptitude Test). Une analogie verbale se présente sous la forme <em>A:B::C:D</em>, et elle signifie que « <em>A</em> est à <em>B</em> ce que <em>C</em> est à <em>D</em> »; ainsi, maçon:pierre::menuisier:bois. Les questions du test SAT portant sur une analogie présentent une paire de mots, <em>A:B</em>, et le problème consiste à choisir la paire de mots la plus analogue, <em>C:D</em>, dans un ensemble comportant cinq choix. L'algorithme VSM permet de répondre correctement à 47 % d'un ensemble de 374 questions de niveau collégial portant sur une analogie (en procédant de façon aléatoire, on obtiendrait 20 % de bonnes réponses). Cette recherche est motivée par ses relations avec des travaux de linguistique et de science cognitive; on peut en appliquer les résultats à un problème difficile dans le traitement des langues naturelles, à savoir la détermination des relations sémantiques dans les paires nom déterminant. Le problème consiste à classifier une paire nom déterminant, par exemple « imprimante laser », en fonction de la relation sémantique qui existe entre le nom (imprimante) et le déterminant (laser). Nous faisons appel pour cela à un algorithme supervisé du plus proche voisin, qui attribue une classe à une paire nom déterminant donnée, en trouvant la paire nom déterminant la plus analogue dans les données de formation. Avec 30 classes de relations sémantiques, pour un ensemble de 600 paires nom déterminant étiquetées, l'algorithme d'apprentissage permet d'obtenir une valeur de F égale à 26,5 % (alors qu'en procédant de façon aléatoire, on obtient un résultat de 3,3 %). Avec 5 classes de relations sémantiques, la valeur de F est de 43,2 % (contre 20 % en procédant de façon aléatoire). Les résultats obtenus sont à la pointe de la technologie pour ces problèmes stimulants. |
---|