Téléchargement | - Voir le manuscrit accepté : Semi-Supervised Self-Training for Sentence Subjectivity Classification (PDF, 551 Kio)
|
---|
Auteur | Rechercher : Wang, B.; Rechercher : Spencer, Bruce; Rechercher : Ling, C.X.; Rechercher : Zhang, H. |
---|
Format | Texte, Article |
---|
Conférence | AI'08, The 21st Canadian Conference on Artificial Intelligence, May 28-30, 2008, Windsor, Ontario |
---|
Résumé | Les recherches récentes sur le traitement des langues naturelles montre que l'identification et l'extraction d'information subjective à partir de textes peuvent contribuer grandement à de nombreuses applications du traitement des langues naturelles. Dans ce document, nous traitons d'une approche faisant appel à l'apprentissage semi-supervisé en vue de la classification de la subjectivité des phrases. En auto-apprentissage, le degré de confiance, qui est fonction de l'ordonnancement des probabilités d'appartenance à des classes, est souvent utilisé comme paramètre de sélection qui ordonne par rangs et sélectionne les instances non étiquetées pour l'apprentissage subséquent appliqué au classificateur sous-jacent. Le classificateur bayésien naïf (NB) est souvent utilisé comme classificateur sous-jacent parce que ses estimés de probabilité d'appartenance à une classe présentent une bonne performance sur le plan de l'ordonnancement. La première contribution du présent document est l'étude des performances de l'auto-apprentissage au moyen de modèles d'arbres de décision comme C4.5, C4.4 et de l'arbre bayésien naïf, comme classificateurs sous-jacents. Notre seconde contribution consiste à proposer un paramètre de différence de valeur adapté comme paramètre de sélection en auto-apprentissage qui n'est pas fonction de probabilités d'appartenance à une classe. Nous nous sommes basés sur le corpus MPQA (réponse à des interrogations à perspectives multiples) pour créer un ensemble d'expériences conçues afin de comparer les rendements de l'auto-apprentissage avec divers classificateurs sous-jacents utilisant des paramètres de sélection différents dans diverses conditions. Les résultats expérimentaux montrent que le rendement de l'auto-apprentissage est amélioré lorsqu'on utilise des paramètres de différence de valeur plutôt qu'un niveau de confiance et que l'auto-apprentissage effectué avec un arbre bayésien naïf et des paramètres de différence de valeur présente de meilleures performances que l'auto-apprentissage effectué avec d'autres combinaisons de classificateurs sous-jacents et paramètres de sélection. Il est aussi démontré que la démarche d'auto-apprentissage produit des rendements comparables aux modèles d'apprentissage supervisés. |
---|
Date de publication | 2008 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 50417 |
---|
Numéro NPARC | 8913184 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | 1256764d-560d-42bb-9ffd-5a36578f7804 |
---|
Enregistrement créé | 2009-04-22 |
---|
Enregistrement modifié | 2020-08-12 |
---|