> Enjeux IT > Pourquoi les projets Big Data ont besoin des moteurs de recherche ?

Pourquoi les projets Big Data ont besoin des moteurs de recherche ?

Enjeux IT - Par Sabine Terrey - Publié le 13 mai 2019

Umanis est une société française créée autour de la data, il y a plus de 20 ans, par des statisticiens. Rencontre avec Ronald Chrisostom, IT Manager Big Data & Search Engines, Architecte Big Data & Analytics, du pôle Consulting qui nous livre son expertise sur le sujet.

Pourquoi les projets Big Data ont besoin des moteurs de recherche ?

Rapidité, simplicité, facilité, distribution …

Pourquoi a-t-on besoin de moteurs de recherche dans le milieu Big Data ?

Revenons sur un point, « les moteurs de recherche sont distribués, fragmentés et devenus scalables avant même l’ère Big Data ». De plus, les moteurs de recherche peuvent gérer des milliards d’enregistrements, on parle dorénavant en millisecondes. Et « ce même concept est exploité dans Hadoop ».

Mais, pourquoi a-t-on besoin des moteurs de recherche dans ce contexte ?

Aujourd’hui « certes, nous commençons à mettre en production les datalakes, mais pour aller rechercher et puiser les informations plus tard, il sera nécessaire de taper une requête afin de récupérer les informations stockées. A ce moment-là, disposerez-vous de toutes les informations pour savoir ce qu’on a mis dans le datalake ?». Or, comment taper ces requêtes, car n’importe quel datalake c’est plus 95 % de tables structurées. « Quand on fait des requêtes SQL, on fait des ‘like’, alors que quand on utilise les moteurs de recherche c’est un million de fois plus rapide que les ‘like’, les temps de réponse sont courts ». Faire des recherches avec des mots clés permet de trouver les informations utiles !

Le moteur de recherche ne se soucie pas de la structure, les documents sont pris sous n’importe quelle forme et sont stockés, on réindexe les termes pour faire des recherches par terme Cliquez pour tweeter

Les mécanismes de recherche sont facilement distribuables sur de larges clusters, d’autant que les données sont devenues hautement volumétriques.

Téléchargez cette ressource

Démocratiser l’adoption de l’IA par la maîtrise de ses données

Saviez-vous que 80% du temps de vos projets IA portent sur l’analyse de vos données ? explorez tous les outils nécessaires pour entreprendre une gestion performante de vos flux de données et optimiser votre architecture afin de réussir vos projets d’Intelligence Artificielle. découvrez le guide des experts Blueway.

Et la variété des données ?

Actuellement, on n’analyse que des données structurées, mais quid de la variété des données ? « Cette variété est oubliée dans la mise en place des datalakes, l’analyse des full text n’est pas prise en compte, tout comme les champs multi valeurs ». Il semble que les tables soient mieux gérées par les moteurs de recherche que les bases de données. Face aux données non structurées, on note un manque évident de maturité des traitements.

De plus, derrière les moteurs de recherche, on trouve « des histogrammes, comptage, additions, multiplications et moyennes … c’est mille fois plus rapide que les autres alternatives » et il est possible de réaliser des tableaux de bord, des rapports et analyses.

« On a vraiment besoin de travailler avec les moteurs de recherche dès maintenant et, en amont des projets. En effet, ne pas ignorer les moteurs de recherche est primordial » conclut l’expert du Pôle Consulting.

Enjeux IT - Par Sabine Terrey - Publié le 13 mai 2019

Découvrir tous les articles de la chaîne Enjeux IT

Les articles les plus consultés

A travers cette chaîne

A travers ITPro

Les plus consultés sur iTPro.fr

A lire aussi sur le site

Faire face à l’évolution des cyberattaques : l’urgence d’une cybersécurité proactive

Le hacker ne hack plus, il se connecte ! La cybersécurité est à la croisée des chemins. Les attaques informatiques ont atteint des niveaux de sophistication inégalés, portées par l’explosion des outils technologiques accessibles à des groupes malveillants de plus en plus organisés.

La Revue du Décideur IT

Externaliser la supervision des réseaux : une tendance stratégique

Face à la complexité croissante des infrastructures réseau et aux exigences toujours plus élevées en termes de connectivité, les entreprises adoptent une nouvelle stratégie : l'externalisation de la gestion de leurs infrastructures réseau.

A la Une des Ressources IT

Inscrivez-vous !

Actualités, Dossiers et Ressources IT Professionnelles - samedi 26 avril 2025

Pourquoi les projets Big Data ont besoin des moteurs de recherche ?

Rapidité, simplicité, facilité, distribution …

Mais, pourquoi a-t-on besoin des moteurs de recherche dans ce contexte ?

Téléchargez cette ressource

Démocratiser l’adoption de l’IA par la maîtrise de ses données

Et la variété des données ?

Les articles les plus consultés

Les plus consultés sur iTPro.fr

Sur le même sujet

A lire aussi sur le site

Faire face à l’évolution des cyberattaques : l’urgence d’une cybersécurité proactive

La Revue du Décideur IT

Externaliser la supervision des réseaux : une tendance stratégique

A la Une des Ressources IT

Démocratiser l’adoption de l’IA par l...

Rapport Forrester sur la sécurité des...

Sécurité et gouvernance des applicati...

Prédictions 2025 des menaces persista...

Sécurité et conformité du Cloud