par Christine Y. Mato et Greg Meyer - Mis en ligne le 17/03/2004
Une application géologique de data warehousing et de data mining avec
SQL Server 2000
Pour notre master's degree program
en Management of Information Systems,
nous avons dû réaliser un projet
d'analyse visant à apprendre les
nuances du data mining en utilisant
des données « réelles ». Notre travail
précédent utilisait des données qui
avaient été nettoyées afin que les
élèves utilisateurs obtiennent tous les
mêmes résultats...Notre école avait
choisi SQL Server 2000 parce qu'il offre
la fonctionnalité d'une base de données
d'entreprise associée à un faible
prix et à une maintenance facile. Nous
étions libres de choisir le sujet d'analyse.
Beaucoup d'autres élèves ont
choisi les analyses de marketing ou de
vente, mais comme nous avions un bagage
de sciences naturelles, nous
avons préféré les données géologiques
et biologiques. En créant un data warehouse
et en y pratiquant le data mining,
nous avons constaté que SQL
Server 2000 fournit un moyen rapide
pour observer statistiquement les données
géologiques.
Les scientifiques du monde entier
amassent sans cesse de grandes quantités
de données géologiques. C'est à
partir de ces sources que nous avons
obtenu nos données échantillon.
Comme SQL Server est plus facile à utiliser
que la méthodologie statistique traditionnelle, nous avons décidé de
rassembler les sources de données
existantes dans un data warehouse
SQL Server. Nous avons dû aussi utiliser
SQL Server pour vérifier les analyses
originales des données géologiques,
qui avaient été effectuées par
des méthodes statistiques usuelles.
Nous avons construit deux data warehouses
à partir de deux sources de
données géologiques différentes. Ces
sources étaient comparativement petites
parce que notre projet était académique
; mais nous pensons que les
constatations garderaient toute leur
pertinence quelle que soit la taille de
l'ensemble de données. Un ensemble
de données constitué de plus de 20 fichiers
provenait d'une étude de
Eastern Continental Shelf qui avait été
collectée et analysée par le United
States Geological Survey (USGS) entre
1955 et 1970. La seconde base de données
contenait les résultats d'une
étude des effets de la décomposition
de l'enfouissement de six espèces de
bois différentes aux Bahamas et dans le
Golfe du Mexique. La quantité de bois
qui se conserve ou se désagrège dans
l'eau dans le monde est phénoménale.
La décomposition du bois produit des
gaz à effet de serre, mais ce phénomène
cesse quand le bois est enfoui.
Cette étude est intéressante parce
qu'elle procure aux scientifiques des
informations supplémentaires précieuses
sur les sources d'émission
d'hydrocarbures dans notre atmosphère.
Dénicher des profils et des tendances
Les résultats d’USGS dans un ensemble
de données comportant 20 fichiers
texte, avec des types de données
analytiques et descriptifs, ont été précédemment
publiés par le National
Geophysics Data Center (NGDC). (Voir
Hathaway, John C., 1971 Data File,
Continental Margin Program, Atlantic
Coast of the United States : WHOI
Reference No. 71-15.) Nous avons créé
une clé primaire composite basée sur
les colonnes existantes qui contenaient
le numéro de station, l’ID
échantillon, et les lettres de souséchantillon.
Puis nous avons défini la
granularité au sous-échantillon (le
code sous-échantillon identifie les
échantillons divisés à partir d’un
échantillon plus grand). La figure 1
montre les données d’échantillon
provenant de l’un des fichiers.
Pour nettoyer les données USGS
originales, nous les avons d’abord importées
dans Microsoft Excel puis dans
Microsoft Access, et finalement dans
SQL Server 2000. Nous avons emprunté
ce circuit sinueux en raison de
la grande variation du format et de la
définition des données dans les fichiers
texte. Les fonctions d’import
dans SQL Server et Access n’étaient pas
aussi robustes que celles d’Excel. En
utilisant l’Excel Text Import Wizard,
nous avons défini manuellement les
largeurs et les formats de champs pour
chaque colonne, créant de nouvelles
colonnes pour les données amalgamées
et divisant les champs de données.
Cette opération a éliminé une
grande partie de la variation des données.
Nous avons ensuite chargé les
données dans Access en utilisant l’option
import external data d’Access.
Pendant l’import, Access a trouvé
d’autres erreurs de formatage de données
; il a stocké les numéros de lignes
des données incompatibles dans un
fichier d’erreurs d’import pour référence.
La figure 2 montre l’un des
problèmes que nous avons rencontrés
: les formats de données dans deux colonnes changeaient de numérique
à alphabétique, puis revenaient à
numérique. Pour corriger les erreurs,
nous avons utilisé une combinaison de
techniques d’édition dans Excel et
avons écrit du code SQL pour reformater
les données dans la table Access.
Après quoi, nous avons édité manuellement
certaines des données et utilisé
des requêtes Update pour transformer
d’autres données en leur équivalent
numérique.
Nous n’avons pas pu importer certains
fichiers dans Access en raison
d’erreurs d’incompatibilité de type de
données dans le champ Sample ID. Ce
champ est alphanumérique, mais
Access essayait de le formater comme
un entier. Nous avons essayé d’utiliser
l’Excel Text Import Wizard pour modifier
le format de données ; mais, quand
nous avons importé les données dans
Access, celui-ci n’a pas reconnu le format
caractère Excel. Nous avons alors
essayé de créer la table dans Access et
d’importer des données externes, mais
Access a continué à supplanter le format
caractère. Pour contourner la difficulté,
nous avons chargé les données
dans SQL Server, en déclarant le
champ comme un type caractère puis
nous les avons réimportées dans
Access pour l’identification des
champs et le nettoyage des données.
Nous avons constaté que les manipulations
de tables étaient plus faciles
dans Access 2000 que dans SQL Server
2000.
Téléchargez cette ressource
Travail à distance – Guide IT et Métiers
Le travail à distance met à l'épreuve la maturité numérique des entreprises en termes de Cybersécurité, d'espace de travail, de bien-être des collaborateurs, de communication et gestion de projet à distance. Découvrez, dans ce nouveau Guide Kyocera, quels leviers activer prioritairement pour mettre en place des solutions de travail à domicile efficaces, pérennes et sécurisées.
Les articles les plus consultés
- La blockchain en pratique
- Les projets d’intégration augmentent la charge de travail des services IT
- ActiveViam fait travailler les data scientists et les décideurs métiers ensemble
- Intelligence Artificielle : DeepKube sécurise en profondeur les données des entreprises
- Dark Web : où sont vos données dérobées ?
Les plus consultés sur iTPro.fr
- Top 6 de la sécurité des secrets
- Déploiement Data Zone de votre IA !
- Le nouvel espace-temps de la transformation digitale : redéfinition des rôles dans les projets IT
- Facturation électronique : les craintes des entreprises liées à la réforme
- Cyber-assurances, priorité ou faux remède pour les TPE et PME ?