par Rick Landon
Les vastes entrepôts de données (datawarehouses) donnent une perspective historique
à votre activité ; les magasins de données (datamart), plus petits, servent à
l'analyse rapide.
De nombreuses sociétés s'empressent de mettre en place une solution de business
intelligence (BI) à grand renfort d'entrepôts de données (data warehouse) et de
magasins de données (data marts), mais essayez donc de vous faire expliquer les
différences essentielles entre ces deux systèmes ! Même les conseillers en BI
utilisent indifféremment l'un ou l'autre terme, et les produits de type datamart
prétendant être des entrepôts de données ajoutent à la confusion.
Ce n'est pourtant pas la même chose. Un entrepôt de données contient les données
recueillies au niveau de détail le plus bas, à partir des principaux domaines
d'activité d'une entreprise,tandis qu'un magasin de données concerne un seul département
ou domaine fonctionnel et contient des données agrégées. Dans cet article, j'explique
les fonctions respectives des entrepôts et des magasins, et ose quelques suggestions
quant à l'application pratique de chaque solution.
Un entrepôt de données est une structure qui stocke de vastes quantités
de données nettoyées et transformées, provenant des bases de données de production
Data Warehouses et Data Marts : quelle différence ?
Un entrepôt de données est une structure (généralement une base de données relationnelle)
qui stocke de vastes quantités de données nettoyées et transformées, provenant
des bases de données de production. Il peut aussi s’agir de tableaux multidimensionnels
(fichiers plats) et d’autres supports de stockage interconnectés pour stocker
d’importants volumes de données. Les données entreposées sont en principe extraites
et transformées au profit de plusieurs départements d’une société : finances,
marketing, ventes et personnel. Les processus d’extraction et de transformation
doivent être suffisamment souples pour servir différents niveaux de décision :
local, régional et entreprise.
Le but principal des entrepôts de données est de se préparer à répondre aux futurs
besoins de données historiques. Après tout, personne ne peut prédire toutes les
utilisations potentielles des données accumulées. L’évolution des marchés entraîne
celle des besoins d’information des sociétés qui s’y affrontent.
Considérons un exemple d’épicerie de quartier recueillant des informations de
vente à partir des scanners des caisses enregistreuses. Nous supposerons que le
magasin s’intéresse avant tout à la marge bénéficiaire et qu’il récapitule les
données en larges catégories de produits, pour déterminer le bénéfice et la tarification,
et pour réaliser des projections de ventes. Supposons que le climat économique
change et que le magasin se retrouve en concurrence avec des chaînes réputées.
Pour lutter plus efficacement, le magasin doit commercialiser ses produits de
manière plus intelligente, c’est-à -dire analyser de manière plus détaillée davantage
de catégories de produits plus étroites. Malheureusement, de telles analyses détaillées
sont impossibles si le système actuel du magasin ne gère que des chiffres cumulés.
C’est pour empêcher cela que les entrepôts de données stockent des données détaillées,
ou “ granulaires ”.
Bien entendu, les données détaillées d’une grande entreprise sont extrêmement
volumineuses. Le transfert de telles masses consomme des ressources et du temps
système. C’est pourquoi de nombreux entrepôts de données sont installés sur des
machines autres que celles de production, les transferts s’effectuant la nuit
ou le weekend. Le chargement d’un entrepôt de données demande beaucoup de temps
pour une autre raison : les données qu’il reçoit doivent généralement être au
préalable nettoyées et transformées. De ce fait, le mouvement de données dans
un entrepôt de données n’est pas un événement instantané ; bien souvent, il demande
plusieurs heures, un jour entier, ou plus (pour plus d’informations sur l’entreposage
de données sur AS/400, reportez-vous à Data Warehousing and the AS/400 (29th Street
Press, 1998).)
Beaucoup utilisent improprement le terme “ entrepôt de données ”, comme expression
passe-partout concernant des fonctions ou des besoins trop complexes pour être
traités immédiatement (“ Nous pouvons répondre à cette question en consultant
l’entrepôt de données, ” par exemple). Or, en raison même de l’énorme quantité
des données entreposées, toute fonction nécessitant des données immédiates ne
devrait pas dépendre directement d’un entrepôt. Il ne faut jamais utiliser un
entrepôt pour servir une application fondée sur les données les plus récentes.
On pourrait utiliser dans ce cas un magasin de données, mais c’est plutôt le rôle
d’un système transactionnel en ligne (OLTP : OnLine Transaction Processing).
Téléchargez cette ressource
Travail à distance – Guide complet pour les Directions IT et Métiers
Le travail à distance met à l'épreuve la maturité numérique des entreprises en termes de Cybersécurité, d'espace de travail, de bien-être des collaborateurs, de communication et gestion de projet à distance. Découvrez, dans ce nouveau Guide Kyocera, quels leviers activer prioritairement pour mettre en place des solutions de travail à domicile efficaces, pérennes et sécurisées.
Les articles les plus consultés
Les plus consultés sur iTPro.fr
- Facturation électronique : les craintes des entreprises liées à la réforme
- Cyber-assurances, priorité ou faux remède pour les TPE et PME ?
- Success Stories : 3 histoires et 3 Intelligences Artificielles
- NIS2: cauchemar des décideurs européens pour la conformité
- Fossé entre exigences professionnelles et compétences