Data cube approximation and mining using probabilistic modelling

Par Conseil national de recherches du Canada

Auteur	Rechercher : Goutte, Cyril¹; Rechercher : Missaoui, Rokia; Rechercher : Boujenoui, Ameur
Affiliation	Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
Format	Texte, Rapport technique
Sujet	data cubes; OLAP; data warehouses; multidimensional data; non-negative multiway factorization; cubes de données; OLAP; entrepôts de données; données multidimensionnelles; factorisation tensorielle non négative; modélisation log-linéaire.
Résumé	Les techniques OLAP (On-line Analytical Processing / Traitementanalytique en ligne), couramment employées dans les entrepôts dedonnées, permettent d'explorer des cubes de données, selon différentsaxes d'analyse (dimensions) et différents niveaux d'abstraction dansune hiérarchie de dimensions. Cependant, de telles techniques neconviennent pas pour une exploration automatique et efficace de données multidimensionnelles, principalement en raison de lamultidimensionnalité et du volume généralement considérable desdonnées. Comme les cubes de données ne sont rien d'autre que destableaux multidimensionnels, nous nous proposons d'analyser lepotentiel de deux techniques de modélisation probabiliste, à savoir lafactorisation tensorielle non négative et la modélisation log-linéaire, dans le but ultime de comprimer et d'explorer destableaux multidimensionnels de valeurs agrégées. Pour lafactorisation, nous calculons l'ensemble de composantes qui s'ajustent le mieux au données initiales et dont la superposition approxime lecube de données. En modélisation log-linéaire, nous recherchons unmodèle parcimonieux (c.-à-d. contenant un nombre réduit deparamètres), qui met en évidence les associations fortes entre lesdimensions et identifie de possibles données aberrantes dans lescellules du tableau. Nous utilisons un exemple réel pour (i) discuterdes avantages possibles des résultats de la modélisation pourl'exploration et l'exploitation des cubes de données, (ii) montrercomment on peut obtenir des réponses approximatives aux requêtes OLAP et (iii) illustrer les points forts et les limites de ces deux techniques de modélisation.
Date de publication	2007
Langue	anglais
Numéro du CNRC	NRCC 49284
Numéro NPARC	8914032
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	69b5c3ee-3ae1-4c3b-9ee3-985a57a34de1
Enregistrement créé	2009-04-22
Enregistrement modifié	2020-03-06

Date de modification :: 2024-08-31