Résumé | Dans le domaine de la recherche de séquences en biologie, on a souvent recours à la matrice position-poids pour chercher les sites de fixation présumés des facteurs de transcription. On utilise généralement un score log-odd pour mesurer le degré de concordance d'une sous-séquence avec la matrice position-poids. Cependant, comme le score log-odd dépend de la longueur du motif, on ne peut donc pas appliquer un seuil universel. Dans cet article, nous proposons un autre index de scores (G) variant à partir de zéro, où la sous-séquence n'est pas très différente du bruit de fond, par rapport à un, et où la sous-séquence concorde le plus à la matrice position-poids. Nous proposons également une mesure évaluant l'espérance statistique de chaque index G. Nous avons étudié les matrices position-poids de la banque TRANSFAC et avons établi que l'espérance statistique est corrélée de manière statistiquement significative ( p < 0,0001) avec à la fois la longueur des matrices position-poids et le seuil de G. Nous avons appliqué cette méthode à deux matrices position-poids (GCN4_C et ROX1_Q6) correspondant aux sites de fixation d'un facteur de transcription chez la levure et deux matrices position-poids (HIC1-02 et HIC1_03) correspondant aux sites de fixation de HIC-1, un facteur de transcription suppresseur de tumeur chez l'humain, tirées de la banque TRANSFAC. Finalement, notre méthode se compare avantageusement à Match, la méthode couramment utilisée. Les résultats indiquent que notre méthode est plus souple et peut fournir un plus grand degré de certitude. |
---|