Résumé | Cette recherche propose une comparaison entre deux sources d'information en vue de la construction d'une ontologie spécialisée : le WWW, vaste source de textes non classifiés, et BioMed, petit corpus de textes spécialisés du domaine médical. La méthodologie explorée est l'emploi de marqueurs explicites dans un texte permettant d'établir des relations sémantiques ou conceptuelles entre des concepts. Bien que le méthode élaborée a ceci d'intéressant qu'elle permet de découvrir de nouveaux éléments d'information qui viendront enrichir l'UMLS (un métathésaurus biomédical), nous mesurons sa validité en tentant de « redécouvrir » de l'information qui existe déjà dans le métathésaurus de l'UMLS. Des mesures de la précision et du rappel sont utilisées dans plusieurs expériences d'extraction d'instances concernant quatre relations sémantiques importantes dans le métathésaurus de l'UMLS, deux de nature générale (est-un(e), synonymie) et deux propres à un domaine (prévient, induit). Il ressort de ces travaux que bien que le WWW soit une source d'information bruitée, son exploration est riche en possibilités et permet effectivement de découvrir de précieux éléments d'information spécialisés. |
---|