par Alexei Bocharov et Jesper Lind - Mis en ligne le 14/06/2006 - Publié en Avril 2005
Les deux principales fonctions du data mining sont la classification et la prédiction (ou prévision). Le data mining vous aide à donner une signification aux giga-octets de données brutes stockées dans les bases de données, en identifiant les modèles et règles présents dans les données ou qui en découlent. Les analystes se servent alors de cette connaissance pour effectuer des prédictions et des recommandations sur les données nouvelles ou futures. Les principales applications de data mining du commerce vous permettent d’en savoir plus sur vos clients et sur leurs besoins, de comprendre les éléments générateurs des ventes et les facteurs qui affectent celles-ci, de concevoir des stratégies marketing et de mettre au point les futurs indicateurs de l’activité.Avec SQL Server 2000, Microsoft a renommé la solution OLAP Services en Analysis Services afin de refléter l’ajout de nouvelles possibilités de data mining. L’ensemble d’outils de data mining disponibles dans cette version de SQL Server incluait seulement deux algorithmes d’analyse classiques (clustering et arborescences de décision), un langage d’expressions de requête et de gestion de data mining spécialisé intitulé DMX, ainsi que des contrôles, visionneuses et outils de développement côté client limités.
SQL Server 2005 Analysis Services inclut un ensemble largement enrichi de méthodes de data mining et une palette d’outils d’analyse et de développement côté client entièrement nouveaux, conçus pour couvrir les besoins les plus courants en matière d’analyse décisionnelle ou BI (Business Intelligence). L’infrastructure Business Intelligence Framework dans SQL Server 2005 propose une nouvelle approche du data mining tant aux analystes qu’aux développeurs.
Nous allons, dans un premier temps, examiner rapidement le processus de data mining. Nous aborderons ensuite les sept algorithmes de data mining disponibles dans l’infrastructure SQL Server 2005 Analysis Services, puis nous jetterons un coup d’oeil à la technologie « plug-in » qui vous aidera à ajouter des algorithmes nouveaux ou personnalisés à cette infrastructure. Bien qu’il n’était pas envisageable d’aborder ici spécifiquement la conception de l’interface utilisateur, les captures incluses dans les différents exemples vous donneront un premier aperçu intéressant de la puissance et des qualités d’utilisation des nouveaux outils côté client.
Data Mining Reloaded
La conception et le développement d’applications de data mining comportent sept étapes logiques. La première consiste à préparer les sources de données : vous identifiez les bases de données et protocoles de connexion à utiliser. Vous décrivez ensuite les vues de source de données, autrement dit les tables qui contiennent les données destinées à l’analyse.
Troisièmement, vous définissez la structure d’exploration en décrivant les colonnes à employer dans les modèles. La quatrième étape porte sur la création des modèles de mining. SQL Server 2005 propose un choix de sept algorithmes de data mining.
Vous pouvez même appliquer plusieurs méthodes en parallèle pour chaque structure d’exploration, comme l’illustre la figure 1. La cinquième étape est appelée traitement. C’est au cours de cette phase que les modèles de mining « extraient la connaissance » des données en provenance des sources de données.
Sixièmement, vous évaluez les résultats. Au moyen de visionneuses côté client et de graphiques de précision, vous pouvez présenter les modèles et prédictions aux analystes et décideurs, puis apporter les ajustements nécessaires. La dernière et septième étape consiste à incorporer le data mining dans votre routine globale de gestion des données. En ayant identifié les méthodes optimales, vous devrez retraiter les modèles périodiquement afin de suivre de nouveaux schémas de données. Par exemple, si la messagerie constitue votre source de données et si vos modèles assurent des prédictions en matière de spams, vous devrez adapter vos modèles fréquemment afin de rester en phase avec l’évolution des tactiques des spammeurs.
Voici un exemple rapide de modèle de mining utile.
Supposons que vous souhaitiez identifier les principaux groupes de clients potentiels à partir de données de recensement incluant les profils de la population sur les plans professionnel, démographique et du revenu. Une méthode appropriée pour l’identification de grands groupes de recensement caractéristiques consiste à employer l’algorithme de clustering. Celui-ci segmente la population en clusters, de telle sorte que les personnes associées à un cluster sont similaires et que celles de différents clusters ont des profils divergents sur un ou plusieurs points. Pour examiner ces clusters, vous pouvez utiliser un outil appelé Microsoft Cluster Viewer (un composant standard de SQL Server 2005 Analysis Services).
La figure 2 présente l’une des quatre vues disponibles, afin de vous donner un affichage comparatif de tous les clusters. Par exemple, les clusters 6 et 7 correspondent aux personnes qui ne sont pas en service actif dans l’armée. Mais le cluster 7 représente les personnes qui travaillent plus longtemps, pour un revenu plus élevé ; la ligne du haut suggère également que les personnes du cluster 7 sont, dans leur grade majorité, mariées.
Téléchargez cette ressource
Guide inmac wstore pour l’équipement IT de l’entreprise
Découvrez les dernières tendances et solutions IT autour des univers de Poste de travail, Affichage et Collaboration, Impression et Infrastructure, et notre dossier Green IT sur les actions engagés par inmac wstore pour réduire son impact environnemental
Les articles les plus consultés
- L’utilisation des données pour survivre !
- Les projets d’intégration augmentent la charge de travail des services IT
- Databricks lève 1 milliard de dollars !
- ActiveViam fait travailler les data scientists et les décideurs métiers ensemble
- Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
Les plus consultés sur iTPro.fr
- La protection des données : un enjeu crucial pour les entreprises
- Défis et bénéfices d’infuser l’IA dans l’analytique et la BI
- Mieux protéger l’entreprise à l’ère du travail hybride et du Cloud
- Les entreprises concentrent les investissements sur l’innovation, l’efficacité et la résilience
- L’IA profite au marché du mobile !