Explorer le DataMining pour en extraire son essence la plus efficace. Laurent Banon et Sylvie Massy se penchent ici sur les rôle et expansion de ce qui est de plus en plus considéré comme une ouverture dans SQL Server. Vers une démocratisation du DataMining, donc.
Mais au juste, qu'est-ce que le data mining ? Commençons par rectifier quelques fausses idées. Les activités suivantes ne sont pas une implémentation du data mining...
Commençons par rectifier quelques fausses idées. Les activités suivantes ne sont pas une implémentation du data mining :
-
Le "reporting ad_hoc". C’est la conception de rapport et la mise en relief de données à partir de méta-données. Ce n’est qu’une présentation des données existantes.
-
La navigation dans un cube. Dans un cube, les données sont mises en forme de manière structurées et agrégées facilitant ainsi l’interrogation et la comparaison de métriques essentielles à la prise de décision.
-
L’abonnement à des évènements pour accélérer la prise de décision.
-
Les statistiques. Bien qu’elles soient à la base du data mining, ça reste différent… Robert Grossman nous donne une définition intéressante : « Le data mining est la conception semi-automatique ou automatique de modèles visant à mettre en avant des liens entre des données, détecter des anomalies, des changements, .., et le tout à partir d’un ensemble important d’informations. » C’est donc le procédé qui permet d’identifier des tendances à partir de fait existants, on l’appelle aussi analyse prédictive ou exploration de données.
Dans quel cadre s’applique le data mining ? Les usages les plus souvent cités sont :
-
L’analyse des fraudes. Une compagnie d’assurance doit traiter une quantité importante de dossiers par jour et elle doit s’équiper d’un outil pour déceler les dossiers frauduleux.
-
L’étude des comportements des consommateurs.
-
La prédiction, comme le passage d’un client à la concurrence.
-
La classification des clients afin de cibler une campagne publicitaire sur une population particulière.
L’exemple historique est celui d’une entreprise de grande distribution américaine. Après avoir analysé les ventes, ils se sont aperçus que les paquets de couches pour bébés étaient souvent achetés le samedi par les pères à cause de leur gros volume. D’où la réorganisation des rayons des supermarchés avec le positionnement des packs de bière à côté des couches.
Le samedi étant un jour de match, les ventes ont amplement augmenté ! Cette image illustre bien les capacités de retour sur investissement (ROI) des travaux de data mining et plus généralement d’informatique décisionnelle. Le cabinet d’étude IDC estime que dans certains cas, le data mining apporte un ROI de 150 %!
Afin de répondre aux problèmes adressés par le data mining, il existe un certains nombre de procédés type comme la classification, le regroupement, la mise en association, la prédiction, l’analyse de séquence, la régres sion. C’est à ce niveau qu’intervient le rôle des algorithmes car c’est eux qui permettent d’effectuer ces transformations de données. La figure 1 présente la matrice des différents algorithmes liés aux tâches de transformation de données.
Téléchargez cette ressource
Sécuriser votre système d’impression
Longtemps sous-estimée, la sécurisation d’un système d’impression d’entreprise doit être pleinement prise en compte afin de limiter le risque de fuite d’informations sensibles. Voici les 3 principales précautions à prendre.