Lorsqu’une personne vous demande de décrire les données de votre entreprise, d’un système précis ou d’une base de données spécifique, combien de fois n’avez-vous pas répondu en mettant l’accent sur la taille du stockage, le taux de croissance, le nombre de tables ou le nombre de lignes ?Ces caractéristiques sont certes importantes pour la conception et la gestion d’une solution efficace et maintenable, mais je vous propose de ne pas limiter vos réponses à la quantité ou au volume, mais également d’inclure une caractérisation de la qualité des données. Après tout, ce n’est pas la quantité des données qui importe, mais leur qualité. Une entreprise peut avoir la plus grande base de données au monde, avec le taux de croissance le plus impressionnant, mais si elle ne peut quantifier la qualité de ses données, celles-ci n’ont aucune utilité.
Le terme « validation intelligente des données » décrit le concept consistant à configurer l’environnement de base de données et de traitement afin d’appliquer automatiquement la validation. Lorsque vous concevez, mettez en oeuvre et gérez vos propres bases de données, vous devez prendre en compte plusieurs aspects essentiels de leur conception : la propriété des données, leur intendance, leurs définitions, leur modélisation, leur normalisation, les valeurs NULL et les types de données, ou encore le nettoyage et l’intégrité des données.
À mesure que vous découvrirez ces aspects tout au long de l’article, rappelez- vous qu’il n’existe rien d’absolu en matière d’options de conception et d’implémentation. Au contraire, vous devez considérer systématiquement les fonctionnalités, avantages et compromis de chaque aspect par rapport à votre environnement spécifique. Si vous gardez cette règle à l’esprit tout au long de votre lecture, vous trouverez des tonnes d’idées pour accroître la qualité de vos données en mettant en oeuvre des stratégies intelligentes de validation de ces dernières.
Validation Intelligente des données

Avant d’explorer plus avant les détails techniques de la validation des données, il faut commencer par aborder trois facteurs essentiels qui influent sur leur qualité : les notions de définition, de propriété et d’intendance. La non-prise en compte de ces facteurs peut aboutir à l’impossibilité de préserver à terme la cohérence et la validité des données. La définition décrit, en termes métier, la signification des données. Vos définitions doivent inclure non seulement une brève description textuelle de celles-ci, mais également toute contrainte limitative telles que les valeurs valides ou les relations avec d’autres données. Ces définitions constituent la base de toute règle employée pendant la validation des données. (Nous aborderons les définitions de données plus en détail un peu plus loin.)
La propriété désigne les personnes responsables des décisions touchant aux données. Certaines des décisions les plus importantes prises par les propriétaires de base de données incluent la validation de la définition des données et l’approbation du niveau de validité acceptable les concernant (voir plus loin dans l’article). Le terme intendance désigne le groupe chargé de la maintenance des données. Celui-ci inclut les développeurs d’applications responsables de tout système qui collecte et gère les données, le DBA chargé de leur stockage et de leur disponibilité, ainsi que tout utilisateur qui consomme, crée ou saisit les données en question.
Cet article met principalement l’accent sur la validation car elle se réfère à la définition et à l’intendance des données, mais si vous n’avez pas établi de propriété, vous n’avez personne vers qui vous tourner pour essayer d’identifier les données valides ou non valides. Par conséquent, la première étape de la mise en oeuvre de stratégies de validation intelligente des données dans votre entreprise consiste à établir la propriété et l’intendance de la base de données car elles mettent en place les fondations de tous les aspects de conception et d’implémentation qui suivent.
Lorsque vous gardez à l’esprit les concepts de définition, de propriété et d’intendance des données, la définition de la validation des données n’est pas aussi simple que vous pourriez le croire. La définition des « données valides » varie d’une organisation à l’autre. Par exemple, un établissement financier, notamment une banque, une société de cartes de crédit ou un cabinet de courtage peuvent avoir des règles de validation plus strictes pour ses données qu’une administration telle que le bureau national du recensement. Par ailleurs, la définition des « données valides » varie souvent d’un système à l’autre au sein d’une organisation. Dans une banque, les systèmes transactionnels de comptes chèques et comptes d’épargne requièrent un état de « véracité absolue », avec des soldes précis au centime près et accessibles aux clients 24 h/24, 7 jours sur 7. Dans le même établissement bancaire, les systèmes d’entrepôt de données analytiques peuvent autoriser une plus grande tolérance car les informations de solde de compte pour l’analyse des pipelines de vente sont nécessaires uniquement sur une base hebdomadaire et reflètent les soldes quotidiens moyens arrondis à 1 000 euros près.
La définition de la validité des données revient souvent à définir un niveau de tolérance raisonnable au lieu d’une règle de véracité absolue. Par conséquent, les niveaux de validité ne sont pas du type « taille unique ». En effet, chaque organisation doit créer une définition de la validité qui corresponde à ses besoins spécifiques et aux exigences du système considéré. Vous trouverez plus loin quelques exemples visant à déterminer la « véracité absolue » dans une discussion sur la préservation de l’intégrité de domaine. Malheureusement, des exemples de « validation par l’établissement de tendances » sortent du cadre de cet article. Mais explorons maintenant plus avant le concept de définition des données.
Téléchargez cette ressource

Prédictions 2025 des menaces persistantes avancées
L'analyse et l'évolution du paysage des menaces persistantes avancées (APT) et des conséquences sur vos infrastructures IT. Découvrez la synthèse des prédictions, tendances et recommandations pour 2025 avec les experts Kaspersky.
Les articles les plus consultés
- Dark Web : où sont vos données dérobées ?
- Stockage autonome, Evolutivité & Gestion intelligente, Pure Storage offre de nouvelles perspectives aux entreprises
- ActiveViam fait travailler les data scientists et les décideurs métiers ensemble
- 9 défis de transformation digitale !
- 10 grandes tendances Business Intelligence
Les plus consultés sur iTPro.fr
- L’Intelligence Artificielle, le nouveau copilote du CRM : une révolution incontournable
- Optimiser la gestion de la relation client dans le secteur des sciences de la vie
- 2025, un « âge de raison » pour l’écosystème de la technologie ?
- 59 % des entreprises françaises victimes de ransomwares ont stoppé leurs opérations !
- KeeeX accélère son développement en Europe en 2025 !
