Unsupervised learning of semantic orientation from a hundred-billion-word corpus

Par Conseil national de recherches du Canada

Téléchargement	Voir la version finale : Unsupervised learning of semantic orientation from a hundred-billion-word corpus (PDF, 175 Kio)
DOI	Trouver le DOI : https://doi.org/10.4224/8914027
Auteur	Rechercher : Turney, Peter¹; Rechercher : Littman, M.L.
Affiliation	Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
Format	Texte, Rapport technique
Description physique	9 leaves
Résumé	Le caractère d'évaluation d'un mot est appelé son orientation sémantique. Une orientation sémantique positive suppose qu'un mot a un caractère désirable (p. ex. "honnête", "intrépide"), et une orientation sémantique négative suppose qu'il a un caractère indésirable (p. ex "dérangeant", "superflu"). Le présent document propose un algorithme simple permettant l'apprentissage non supervisé de l'orientation sémantique d'un corpus extrêmement volumineux. La méthode proposée consiste à interroger un moteur de recherche Web et à utiliser de l'information mutuelle ponctuelle pour analyser les résultats. L'algorithme est évalué de façon empirique au moyen d'un corpus d'apprentissage constitué d'une centaine de milliards de mots environ, soit le sous ensemble du Web qui est indexé par le moteur de recherche. L'algorithme, qui a été testé avec 3 596 mots (1 614 mots positifs et 1 982 mots négatifs), est précis à 80 %. Les 3 596 mots testés comprennent des adjectifs, des adverbes, des noms et des verbes. L'exactitude des résultats est comparable à celle des résultats obtenus par Hatzivassiloglou et McKeown (1997) à l'aide d'un algorithme d'apprentissage non supervisé à quatre stades restreint à la détermination de l'orientation sémantique des adjectifs.
Date de publication	2002-05-12
Maison d’édition	National Research Council of Canada
Dans	Report (National Research Council of Canada. Radio and Electrical Engineering Division : ERB), ERB-1094 (12 mai 2002).
Série	Report (National Research Council of Canada. Radio and Electrical Engineering Division : ERB), nº ERB-1094 (12 mai 2002).
Langue	anglais
Publications évaluées par des pairs	Non
Numéro du CNRC	NRCC 44929
Numéro NPARC	8914027
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	3d270c0f-73ce-4c1f-9641-05e85aff3620
Enregistrement créé	2009-04-22
Enregistrement modifié	2023-06-19

Date de modification :: 2024-07-08