Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities

Par Conseil national de recherches du Canada

Téléchargement	Voir le manuscrit accepté : Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities (PDF, 201 Kio)
Auteur	Rechercher : Turney, Peter¹
Affiliation	Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
Format	Texte, Article
Conférence	The Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL-3), July 25-26, 2004, Barcelona, Spain
Résumé	Cet article décrit une application à la tâche ELS (English Lexical Sample ou exemple lexical anglais) dans Senseval-3 du système de désambiguïsation sémantique WSD (Word Sense Disambiguation) du Conseil national de recherches du Canada (CNRC). Le système du CNRC aborde le problème de la désambiguïsation sémantique comme un problème classique d'apprentissage automatique supervisé, qu'il attaque au moyen d'outils bien connus comme le logiciel d'apprentissage automatique Weka et le tagueur de nature grammaticale à base de règles de Brill. Les entrées sont représentées par des vecteurs de traits comportant plusieurs centaines de ces derniers. Environ la moitié des traits sont des traits syntaxiques, l'autre des traits sémantiques. La méthode de génération des traits sémantiques, fondée sur la probabilité de co occurrence des mots, constitue le principal élément novateur de ce système. Cette probabilité est estimée au moyen du système multitexte de Waterloo, avec un corpus d'environ un téra octet de texte sans référence, recueilli au moyen d'un aspirateur.
Date de publication	2004
Dans	Proceedings of the Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL-3).
Langue	anglais
Numéro du CNRC	NRCC 47167
Numéro NPARC	5763802
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	ad3282e8-edb7-4cab-8367-66ad7e02a7eb
Enregistrement créé	2009-03-29
Enregistrement modifié	2021-01-05

Date de modification :: 2024-07-08