Téléchargement | - Voir le manuscrit accepté : Learning Algorithms for Keyphrase Extraction (PDF, 801 Kio)
|
---|
DOI | Trouver le DOI : https://doi.org/10.1023/A:1009976227802 |
---|
Auteur | Rechercher : Turney, Peter D.1 |
---|
Affiliation | - Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
|
---|
Format | Texte, Article |
---|
Sujet | machine learning; summarization; indexing; keywords; apprentissage machine; réduction; indexation; mots clés; extraction de phrases clés. |
---|
Résumé | Plusieurs revues spécialisées demandent aux auteurs des mémoires publiés de fournir une liste de cinq à quinze mots clés qui doit paraître sur la première page de chaque mémoire. Étant donné que ces mots clés sont souvent des expressions de deux mots ou plus, nous préférons les appeler phrases clés. Il existe une grande variété de tâches où les phrases clés sont utiles, comme nous l'exposons dans ce mémoire. Nous considérons le problème de l'extraction automatique des phrases clés d'un contexte comme une tâche d'apprentissage supervisée. Nous considérons un document comme un ensemble de phrases que l'algorithme d'apprentissage doit apprendre à classer sous la forme d'exemples de phrases clés positifs ou négatifs. Notre premier ensemble d'expériences utilise l'algorithme d'induction à arbre de décision C4.5 pour cette tâche d'apprentissage. Nous évaluons la performance de neuf configurations différentes de C4.5. Le second ensemble d'expériences utilise l'algorithme GenEx à la même fin. Nous avons élaboré cet algorithme spécifiquement pour l'extraction automatique des phrases clés d'un texte. Les résultats expérimentaux confirment l'opinion que l'algorithme personnalisé (GenEx) incorporant des connaissances procédurales spécialisées peut choisir les phrases clés mieux qu'un algorithme universel (C4.5). Une évaluation subjective des phrases clés produite par Extractor mène à la conclusion qu'environ 80 % des phrases clés sont acceptables pour les lecteurs. Ce niveau de performance devrait être satisfaisant dans une grande variété d'applications. |
---|
Date de publication | 2000 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 44105 |
---|
Numéro NPARC | 8913713 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | c3c43a82-5ef9-4179-b820-763ad2d9ec62 |
---|
Enregistrement créé | 2009-04-22 |
---|
Enregistrement modifié | 2020-03-26 |
---|