par Sanjay Soni, ZhaoHui Tang, Jim Yang, et Kamal Hathi - Mis en ligne le 26/04/02
Le datamining aide à trouver des profils
et des tendances cachés et des informations
de gestion utiles dans de
vastes ensembles de données. Ainsi
renseignées, les entreprises peuvent
améliorer le marketing, les ventes, et
l'assistance client, grâce à une
meilleure appréhension de la clientèle ...
De nombreux problèmes de gestion
peuvent être ainsi résolus : voir quels
clients on risque de perdre ou découvrir
d'autres produits auxquels un certain
type de client pourrait s'intéresser.
Dans ces scénarios, les principales activités
consistent à découvrir des profils
inhérents (mais pas toujours évidents)
dans les données puis, à faire des prévisions
en se fondant sur eux.
E-business oblige, le datamining
suscite de plus en plus d'intérêt. De
nombreuses sociétés découvrent qu'il
a tout pour devenir une composante
essentielle de l'architecture informatique
et de la stratégie de développement.
Comme le datamining concerne l'exploration et l'analyse, par des
moyens automatiques ou semi-automatiques,
de grandes quantités de
données peuvent aider les analystes de
gestion à déceler des profils et des
règles pertinents. Les sociétés ont accumulé
de très vastes bases de données
provenant des applications ERP
(enterprise resource planning) ou
CRM (customer relationship management)
et autres systèmes. Les techniques
de datamining mettent au travail
les données tirées des profils.
Microsoft a introduit le datamining
dans SQL Server 2000, dans le cadre
d'Analysis Services. En plus, Microsoft
s'est alliée à plusieurs fournisseurs de
datamining réputés pour créer l'API
OLE DB for Data Mining. L'API définit
un langage de requête de datamining
(OLE DB for Data Mining Query
Language) fondé sur la syntaxe SQL. Ce
langage traite les modèles de datamining
comme un type spécial de table
relationnelle et traite les opérations de prédiction comme un genre spécial de
jointure. Pour comprendre les termes
employés dans cet article, voir l'encadré
« Terminologie de Data-Mining ».
Les Analysis Services incluent le fournisseur
de datamining Microsoft,
fondé sur le standard OLE DB for Data
Mining. Le nouveau fournisseur
comporte deux algorithmes de datamining
: Microsoft Decision Trees (MDT)
et Microsoft Clustering. Voyons comment
chacun d'eux permet de résoudre
des problèmes de gestion classiques.
Analysis Services est livré avec les algorithmes
MDT et Microsoft Clustering,
fruits de nombreuses années de recherche
chez Microsoft. Examinons
brièvement les deux algorithmes. Vous
trouverez des informations complémentaires
les concernant à http://citeseer.
nj.nec.com/bradley98scaling.html
et à http://www.acm.org/sigmod/disc/
p_scalableclassifsuj.htm.
MDT (Microsoft Decision Tree).
L’arbre de décision est probablement
la technique de modélisation prédictive
la plus répandue. Pour comprendre
le principe de base de l’algorithme
fondé sur l’arbre de décision,
voyons un exemple. La table 1 montre
un ensemble de données utilisable,
pour prédire un risque de crédit. Nous
engendrons des informations hypothétiques
à propos des clients : niveau d’endettement, niveau de revenu, type
d’emploi, et évaluation de leur risque
de crédit.
Dans cet exemple, l’algorithme arborescent
pourrait déterminer que
l’attribut le plus important pour prédire
le risque de crédit est le niveau
d’endettement. Donc, l’algorithme effectue
la première division dans l’arbre
de décision, d’après le niveau d’endettement.
L’un des deux nouveaux
noeuds (Debt = High) est un noeud de
type feuille contenant trois cas de mauvais
crédit et aucun cas de bon crédit.
Dans cet exemple, un niveau d’endettement
élevé laisse présager un mauvais
risque de crédit. L’autre noeud
(Debt = Low) est encore mixte, avec
trois cas de bon crédit et un de mauvais.
L’algorithme de l’arbre de décision
choisit ensuite le type d’emploi
comme le prédicteur le plus significatif
suivant du risque de crédit. La division
sur le type d’emploi a deux noeuds
feuilles montrant que les travailleurs
indépendants ont ici une probabilité
de mauvais crédit plus forte.
Pour les besoins de l’exemple,
nous n’avons utilisé qu’un petit
nombre de données synthétiques pour
illustrer comment l’arbre de décision
utilise les attributs connus des demandeurs
de crédit pour prévoir le risque.
En réalité, chaque postulant au crédit
aurait beaucoup plus d’attributs et il y
aurait de très nombreux postulants.
Quand l’échelle du problème grandit,
il devient difficile d’extraire manuellement
les règles qui distinguent les
risques de crédit bons et mauvais.
Mais, l’algorithme MDT est capable
d’analyser des centaines d’attributs et
des millions d’enregistrements pour
créer un arbre de décision décrivant
les règles pour la prédiction du risque
de crédit.
Microsoft Clustering. L’algorithme
Microsoft Clustering se fonde sur
l’algorithme EM (Expectation and Maximization). L’algorithme EM fait
une itération entre deux étapes. Dans
la première étape – l’étape « expectation
» – il calcule le cluster membership
de chaque cas. C’est la probabilité
qu’un cas appartienne à un cluster
donné. Dans la seconde étape (« maximization
»), l’algorithme utilise ces
membres du cluster pour réévaluer les
paramètres des modèles, comme le
lieu et les paramètres d’échelle de la
distribution gaussienne.
La figure 2 présente quelques itérations
de l’algorithme EM pour un ensemble
de données à une dimension.
L’algorithme suppose que les données
proviennent d’un mélange de distributions
gaussiennes, plus couramment
appelées courbes en cloche. Dans la
première ligne de la figure 2, l’algorithme
initialise la distribution du mélange, qui est le mélange de plusieurs
courbes en cloche ici. Dans les
deuxième et troisième lignes, l’algorithme
modifie la distribution du mélange
d’après les données. L’itération
s’arrête quand elle rencontre certains
critères d’arrêt – par exemple, quand
elle atteint un certain taux de probabilité
d’amélioration entre des itérations.
La plupart des algorithmes de clustering
chargent tous les points de données
en mémoire, ce qui nuit à l’évolutivité
face à un ensemble de données
de grande taille. Toutefois, l’algorithme
Microsoft Clustering utilise un framework
évolutif qui stocke de manière sélective
des portions importantes de la
base de données et en résume d’autres
portions. Essentiellement, l’algorithme
charge des données dans des tampons
de mémoire par blocs et, en se fondant sur le modèle de datamining mis à jour,
résume les cas qui sont proches dans
une distribution gaussienne, ce qui
contribue à compresser ces cas. De ce
fait, l’algorithme Microsoft Clustering
n’a besoin d’explorer les données
brutes qu’une seule fois.
Téléchargez cette ressource
Travail à distance – Guide IT et Métiers
Le travail à distance met à l'épreuve la maturité numérique des entreprises en termes de Cybersécurité, d'espace de travail, de bien-être des collaborateurs, de communication et gestion de projet à distance. Découvrez, dans ce nouveau Guide Kyocera, quels leviers activer prioritairement pour mettre en place des solutions de travail à domicile efficaces, pérennes et sécurisées.