Résumé | L'évaluation automatique de la qualité des pages Web relatives à la santé est une nouvelle méthode pour aider les consommateurs à évaluer l'information sur la santé en ligne. Dans cet article, nous proposons une méthode de détection des critères techniques, basée sur des règles, pour évaluer automatiquement la qualité. Pour commencer, nous avons défini des indicateurs mesurables correspondant à chaque critère, en précisant la valeur de l'indicateur et son emplacement attendu. Puis le système extrait les lignes candidates pouvant contenir des indicateurs, en appariant la valeur de l'indicateur et le contenu d'une page Web. L'emplacement réel d'une ligne candidate est détecté au moyen de l'analyse de l'arbre DOM de la page Web. Le modèle d'expression de chaque ligne candidate est désigné par des expressions régulières. Chaque ligne candidate est classifiée dans un critère, conformément aux règles de concordance de l'emplacement et des modèles d'expression. Les occurrences des critères sur la page Web sont résumées, d'après les résultats de la classification de la ligne. La performance de cette méthode de détection des critères, basée sur des règles, est testée sur deux ensembles de données. Elle est également comparée à une méthode directe de détection des critères. Les résultats montrent que l'exactitude globale de la méthode à base de règles est supérieure à celle de la méthode de détection directe. Certains critères tels que le nom de l'auteur, ses références et son appartenance à des groupes , qui étaient difficiles à trouver au moyen de la méthode de détection directe, peuvent être efficacement détectés au moyen de l'emplacement et des modèles d'expression. L'approche de détection des critères basée sur des règles pour évaluer la qualité des pages Web sur la santé s'avère efficace. La détection automatique des critères techniques est complémentaire à l'évaluation de la qualité du contenu et peut contribuer à l'évaluation de la qualité globale des sites Web portant sur la santé. |
---|