Résumé | Le caractère d'évaluation d'un mot est appelé son orientation sémantique. Une orientation sémantique positive suppose qu'un mot a un caractère désirable (p. ex. "honnête", "intrépide"), et une orientation sémantique négative suppose qu'il a un caractère indésirable (p. ex "dérangeant", "superflu"). Le présent document propose un algorithme simple permettant l'apprentissage non supervisé de l'orientation sémantique d'un corpus extrêmement volumineux. La méthode proposée consiste à interroger un moteur de recherche Web et à utiliser de l'information mutuelle ponctuelle pour analyser les résultats. L'algorithme est évalué de façon empirique au moyen d'un corpus d'apprentissage constitué d'une centaine de milliards de mots environ, soit le sous ensemble du Web qui est indexé par le moteur de recherche. L'algorithme, qui a été testé avec 3 596 mots (1 614 mots positifs et 1 982 mots négatifs), est précis à 80 %. Les 3 596 mots testés comprennent des adjectifs, des adverbes, des noms et des verbes. L'exactitude des résultats est comparable à celle des résultats obtenus par Hatzivassiloglou et McKeown (1997) à l'aide d'un algorithme d'apprentissage non supervisé à quatre stades restreint à la détermination de l'orientation sémantique des adjectifs. |
---|