Téléchargement | - Voir le manuscrit accepté : Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities (PDF, 201 Kio)
|
---|
Auteur | Rechercher : Turney, Peter1 |
---|
Affiliation | - Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
|
---|
Format | Texte, Article |
---|
Conférence | The Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL-3), July 25-26, 2004, Barcelona, Spain |
---|
Résumé | Cet article décrit une application à la tâche ELS (English Lexical Sample ou exemple lexical anglais) dans Senseval-3 du système de désambiguïsation sémantique WSD (Word Sense Disambiguation) du Conseil national de recherches du Canada (CNRC). Le système du CNRC aborde le problème de la désambiguïsation sémantique comme un problème classique d'apprentissage automatique supervisé, qu'il attaque au moyen d'outils bien connus comme le logiciel d'apprentissage automatique Weka et le tagueur de nature grammaticale à base de règles de Brill. Les entrées sont représentées par des vecteurs de traits comportant plusieurs centaines de ces derniers. Environ la moitié des traits sont des traits syntaxiques, l'autre des traits sémantiques. La méthode de génération des traits sémantiques, fondée sur la probabilité de co occurrence des mots, constitue le principal élément novateur de ce système. Cette probabilité est estimée au moyen du système multitexte de Waterloo, avec un corpus d'environ un téra octet de texte sans référence, recueilli au moyen d'un aspirateur. |
---|
Date de publication | 2004 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 47167 |
---|
Numéro NPARC | 5763802 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | ad3282e8-edb7-4cab-8367-66ad7e02a7eb |
---|
Enregistrement créé | 2009-03-29 |
---|
Enregistrement modifié | 2021-01-05 |
---|