Résumé | Les techniques OLAP (On-line Analytical Processing / Traitementanalytique en ligne), couramment employées dans les entrepôts dedonnées, permettent d'explorer des cubes de données, selon différentsaxes d'analyse (dimensions) et différents niveaux d'abstraction dansune hiérarchie de dimensions. Cependant, de telles techniques neconviennent pas pour une exploration automatique et efficace de données multidimensionnelles, principalement en raison de lamultidimensionnalité et du volume généralement considérable desdonnées. Comme les cubes de données ne sont rien d'autre que destableaux multidimensionnels, nous nous proposons d'analyser lepotentiel de deux techniques de modélisation probabiliste, à savoir lafactorisation tensorielle non négative et la modélisation log-linéaire, dans le but ultime de comprimer et d'explorer destableaux multidimensionnels de valeurs agrégées. Pour lafactorisation, nous calculons l'ensemble de composantes qui s'ajustent le mieux au données initiales et dont la superposition approxime lecube de données. En modélisation log-linéaire, nous recherchons unmodèle parcimonieux (c.-à-d. contenant un nombre réduit deparamètres), qui met en évidence les associations fortes entre lesdimensions et identifie de possibles données aberrantes dans lescellules du tableau. Nous utilisons un exemple réel pour (i) discuterdes avantages possibles des résultats de la modélisation pourl'exploration et l'exploitation des cubes de données, (ii) montrercomment on peut obtenir des réponses approximatives aux requêtes OLAP et (iii) illustrer les points forts et les limites de ces deux techniques de modélisation. |
---|