Résumé | En biologie moléculaire, les recherches actuelles suggèrent qu'il est possible d'inférer la fonction d'une protéine à partir de sa structure. Deux protéines comportant des sections locales (ou sites actifs) et des formes similaires sont souvent étroitement apparentées. Cette information est importante lorsqu'on détermine les effets indésirables de nouveaux médicaments, lorsqu'on identifie de nouvelles architectures de protéines, lorsqu'on prévoit l'interaction des protéines, comme le problème du couplage (où un soi-disant récepteur se connecte avec le ligand) et qu'on explique des évolutions inattendues. En raison du grand nombre de nouvelles structures de protéines découvertes récemment, il y a un besoin urgent de disposer de systèmes d'exploration de données multimédia qui soient en mesure de trouver efficacement des structures de protéines similaires, en fonction des formes et des propriétés physiques. Dans cet article, nous décrivons le système d'exploration de données CAPRI (analyse de structures de protéines fondée sur le contenu en vue de la récupération et de l'indexation), utilisé pour explorer de très grandes bases de données multimédia contenant de nombreuses familles de structures de protéines. CAPRI est en mesure de trouver des protéines semblables en se basant sur leur structure, en utilisant tout d'abord les couleurs, les textures et les compositions 2D, puis la structure 3D des protéines. Nos résultats portant sur plus de 26 000 structures de protéines contenues dans la Protein Data Bank montrent que notre système est capable de localiser avec exactitude et efficacité des structures de protéines apparentées. Au moyen du système CAPRI, les experts du domaine sont capables de trouver des structures de protéines semblables en utilisant un modèle de « recherche par prototype ». Cela les aide à nommer efficacement les nouvelles structures, à trouver les familles de protéines existantes, à identifier les mutations et à expliquer des évolutions inattendues. |
---|