Les entreprises se trouvent aujourd’hui confrontées à de nouveaux défis, celui de devoir gérer et analyser des Volumes de données en croissance exponentielle (l’échelle du téraoctet (1012) a vécu, voici venir l’ère du pétaoctet (1015) et de nature Variée (disponibles dans des formats structurés, semi-structurés voire non structurés).
Les 4 V du Big Data
Par ailleurs, la Vélocité des données (vitesse à laquelle elles sont générées et doivent potentiellement être traitées, ainsi que leur durée de validité) et leur caractère Versatile (certaines données peuvent contenir un nombre d’attributs variables) sont deux autres paramètres importants à prendre en compte.
Ces 4 Variables caractérisent assez bien le paradigme du Big Data, qui ne se résume donc pas simplement à une problématique de volumétrie importante des données.
La variété des données constitue notamment un facteur important de cette problématique, on distingue généralement trois types de données :
• Données structurées
Il s’agit essentiellement de données stockées et organisées dans une structure relationnelle, c’est-à-dire une base de données. Le cas échéant, cette catégorie peut également inclure d’autres formes de stockage des données comme les cubes OLAP ou les modèles de (Data)mining, matérialisés sous forme de structures multidimensionnelles.
Elles représentent la majorité des données exploitées aujourd’hui, mais une minorité (20% d’après certains analystes) de celles réellement disponibles dans l’entreprise. Elles proviennent principalement du SI interne de l’entreprise, et reflètent son organisation (RH, géographique, fonctionnelle (BU)), son activité business (produits, ventes, clients) ou encore marketing (gestion des campagnes).
Stockées dans des bases de données relationnelles, ces données peuvent être facilement interrogées pour en extraire une vision synthétique de l’activité de l’entreprise. Les agrégations les plus fréquemment effectuées sur les données peuvent être anticipées et persistées dans des cubes OLAP afin d’accélérer notablement l’exécution des requêtes portant sur ces données, et soulager la base de données par la même occasion.
Enfin, les modèles de Mining permettent d’anticiper les futures évolutions des indicateurs clés de l’entreprise en fonction des valeurs prévisionnelles de certains paramètres, en analysant les données historiques (notions d’apprentissage des données et d’entraînement de modèles). Ils permettent également d’identifier des corrélations entre des paramètres sans relation apparente qui, lorsqu’ils présentent des caractéristiques précises, permettent de maximiser la performance de l’entreprise (ex. les ventes de tel article sont de 50% supérieures pour les individus mâle de plus de 50 ans ayant acheté tel autre article).
• Données semi-structurées
On peut les trouver sous diverses formes : fichiers Logs de sites Web contenant le détail du parcours des internautes (clickstreams) sur un site d’e-Commerce par exemple, capteurs intégrés dans des systèmes embarqués, fichiers Logs de sécurité permettant de surveiller/détecter d’éventuelles tentatives d’intrusion sur le réseau, coordonnées GPS provenant d’équipements mobiles, fichiers XML…
Ces données peuvent représenter des volumes très importants mais dont la valeur unitaire n’a parfois que peu d’importance, et qu’il est en tous cas rarement besoin de conserver intégralement à ce niveau de granularité et sur une longue période (certains éléments peuvent le cas échéant être isolés afin d’être conservés plus longtemps).
• Données non structurées
Ce sont généralement des informations textuelles provenant de réseaux sociaux comme Twitter ou Facebook, de blogs, de forums, de commentaires laissés par les clients d’une entreprise dans un questionnaire en ligne, d’e-mails ou de SMS, etc. Il peut également s’agir d’images, de vidéos ou de sons.
Jusqu’alors pas ou peu exploitées car elles se trouvent majoritairement sous la forme de texte libre et ne proviennent généralement pas du SI de l’entreprise, elles représentant d’immenses volumes de données. Leur analyse permet de déterminer les sentiments des clients (c’est-à-dire leur avis, leur opinion), et d’ajuster le positionnement d’un produit ou d’une offre de manière réactive.
Il existe essentiellement trois types de solutions pour gérer de gros volumes de données : les Solutions décisionnelles, constituées essentiellement des systèmes de base de données relationnelles (SGBDR) ou multidimensionnelles (OLAP), le plus souvent adossées sur des architectures techniques optimisées pour fournir les meilleures performances possibles dans un contexte d’activité (requêtes) décisionnelle. Ce type de solution est conçu pour traiter des données au format structuré (stocké en base).
Les Solutions de type Cloud Computing, qui recouvrent la notion de ferme de serveurs hébergés sur une d’infrastructure privée (dans l’entreprise) ou publique (chez un hébergeur spécialisé). Ces infrastructures offrent des services de stockages simples (structures hiérarchiques) ou évolués (structures relationnelles) qui permettent de stocker et gérer de larges volumes de données à bas coûts, et de pouvoir s’adapter (à la hausse comme à la baisse) aux besoins de stockage et de puissance de traitement.
Les Solutions de type Grid Computing, enfin, très similaires aux solutions de type Cloud Computing dont elles reprennent les fondements en terme d’architecture (et sur lesquelles elles s’appuient la plupart du temps), qui se distinguent de ces dernières par le fait qu’elles fournissent des services spécialisés pour les calculs et le traitement des données.
Rendez-vous dans le prochain dossier pour aborder les enjeux business du Big Data.
Téléchargez cette ressource
Prédictions 2025 des menaces persistantes avancées
L'analyse et l'évolution du paysage des menaces persistantes avancées (APT) et des conséquences sur vos infrastructures IT. Découvrez la synthèse des prédictions, tendances et recommandations pour 2025 avec les experts Kaspersky.