> Enjeux IT > Datameer rend l’utilisation d’Hadoop plus simple

Datameer rend l’utilisation d’Hadoop plus simple

Enjeux IT - Par José Diz - Publié le 31 mars 2016
email

La semaine d’iTPro.fr dans la Silicon Valley s’achève.

Datameer rend l’utilisation d’Hadoop plus simple

Occasion de rencontrer entreprises, spécialistes, ingénieurs, start-up dont vous allez bientôt entendre parler et qu’il faut suivre de près… BI, Big Data, mais pas seulement alors découvrez notre série d’articles ‘Innovation IT’, en direct de San Francisco. Notre expert vous en dit plus…

Rendre les Big Data accessibles pour faire bénéficier tous les employés concernés de leur potentiel. Telle est la promesse de la société Datameer.

Une idée très répandue dans les discours. Cependant, la technologie de cette société mérite qu’on lui prête attention.

Né en Allemagne de l’Est et connaissant bien l’Europe, Stefan Groschupf, CEO de Datameer, a très vite choisi les États-Unis pour lancer sa société informatique. La poignée d’ingénieurs du lancement de cette start-up a laissé place à une entreprise de 200 personnes. Toutefois, il ne s’agit pas vraiment d’une explosion soudaine. Ainsi, les financiers ont suivi la start-up avec intérêt et investi progressivement : 2,5 millions de dollars en avril 2010 ; 8,5 millions en mai 2011 ; 6 autres en septembre 2012, et 19 millions en décembre 2013. Et en août 2015, les 40 millions supplémentaires ont fait passer Datameer au statut de “pépite à surveiller” dans la Silicon Valley, avec un total de financement de 76,75 millions de dollars. Une pérennité qui facilite la décision par les grandes entreprises. Néanmoins, la société compte déjà de belles références internationales comme American Airlines, Telefonica, Sears, American Express, Comcast, Workday, NetApp…

Une plate-forme mue par Hadoop 

L’ambition de Datameer consiste à fournir une plate-forme simple palliant le manque de compétences en data scientists et autres spécialistes de la business Intelligence, tout en ouvrant ces outils ou utilisateurs métier.

Traditionnellement, les outils analytiques extraient les données des bases de données structurées, réalisent des transformations (nettoyage, formatage…) avant de les injecter  dans un entrepôt de données (datawarehouse ou datamart) avec des outils ETL (Extract, Transform, Load). Alors, cette base d’informations est utilisée pour générer des rapports et autres tableaux de bord.

« Les ETL sont lents et nécessitent des schémas de données et des règles prédéfinies, » explique Stefan Groschupf. « Par ailleurs, les datawarehouses sont statiques et rigides, et les reportings restent complexes à réaliser pour un utilisateur métier. Enfin, ces projets nécessitent en moyenne 18 mois pour être opérationnels. Quelle entreprise peut encore se permettre de tels délais ? Cela explique que les utilisateurs préfèrent encore utiliser Excel avec tous les problèmes de synchronisation, de fiabilité et de cohérence des informations que cela entraine.»

Pour résoudre ces problèmes de performances, de délais et de compétences, Datameer propose une solution de bout en bout. La plateforme repose sur une distribution Hadoop, donc évolutive et flexible et avec des performances multipliées grâce à une infrastructure parallélisée (clusters). Sur cette couche, Datameer ajoute une couche de sécurité et, bien entendu, des outils de gouvernance et de gestion des données. Alors seulement intervient son moteur d’exécution qui utilise des connecteurs vers les sources de données structurées ou non (plus de 70 déjà disponibles, y compris Twitter ou Facebook, mais aussi vers les mainframes). Lors de l’utilisation des données interviendra la phase de préparation/analyse des données à des fins d’exploration/visualisation.

Schémas On-Read et non plus On-Write

L’approche datawarehouse consiste à récupérer des données et les transformer pour les stocker dans une forme prédéfinie (Schéma on write). Des opérations quoi interviennent dès la phase d’ingestion/intégration.

L’approche Data Lake vise au contraire à récupérer et stocker la donnée au plus près de sa forme initiale (raw data). On ne présuppose l’utilisation ultérieure de l’information ni la structure de stockage nécessaire. Les informations sont stockées “à plat” le plus souvent sous forme arborescente ou accompagnées de métadonnées. Quels que soient les traitements appliqués par la suite, l’utilisateur est certain de disposer réellement de la donnée source originelle.

L’un des intérêts majeurs du Big Data tient justement dans le fait de ne pas définir à l’avance “ce que l’on va faire dire aux données”. « Nous pouvons ainsi stoker les données brutes, structurées ou non, sous Hadoop, les nettoyer ou leur faire subir un traitement pour une les responsables financiers par exemple, puis reprendre ces données brutes afin de leur appliquer d’autres traitements pour le marketing par exemple, » affirme le CEO.

« Le datawarehouse a aussi été conçu pour économiser sur les ressources matérielles nécessaires de cette époque, » souligne le Stefan Groschupf. « Avec Hadoop, il est possible de disposer d’une infrastructure illimitée en clusters, avec une élasticité inédite. Et grâce à l’approche Scheme On-Read, on peut considérer que chaque visualisation de données est plutôt une vue sur les données originelles [View].»

La solution repose sur approche très graphique, que la société qualifie de “Data Driven Graphics”. 30 widgets de visualisation peuvent être simplement glissés sur le plan de travail et connectés aux informations dont les traitements ont pu être préparés par les informaticiens. Datameer propose plus de 250 fonctions analytiques, sans oublier la gouvernance et la sécurité (avec connecteurs Active Directory et LDAP).

Bientôt une entrée en bourse ?

Même si la société développe ses propres solutions qu’elle commercialise sous forme SaaS ou de logiciel traditionnel, ses équipes contribuent aux projets open source, comme le projet de supervision de clusters Hadoop Ambari par exemple.

Datameer est proposée en mode SaaS ou en logiciel serveur traditionnel. 90% des installations seraient réalisées sur site selon  le CEO. Sous Azure (commercialisation aussi via Microsoft), il faut compter 50 000 dollars en prenant en compte aussi le nombre de nœuds physiques, soit une moyenne de 100 000 dollars annuels sur les 200 projets déjà déployés (incluant trois jours d’accompagnement).

Sur site, la facturation est calculée selon le nombre de nœuds physiques, pour 5000 dollars par serveur et par an.

Datameer dispose déjà de bureaux aux États-Unis (New York et San Francisco),  en Allemagne (Berlin), à Singapour, à Hong-Kong et bientôt au Royaume-Uni. La société serait déjà parvenue à l’équilibre financier. Une situation qui permet au dirigeant d’envisager sereinement une entrée en bourse dès 2019.

Téléchargez cette ressource

Travail à distance – Guide IT et Métiers

Travail à distance – Guide IT et Métiers

Le travail à distance met à l'épreuve la maturité numérique des entreprises en termes de Cybersécurité, d'espace de travail, de bien-être des collaborateurs, de communication et gestion de projet à distance. Découvrez, dans ce nouveau Guide Kyocera, quels leviers activer prioritairement pour mettre en place des solutions de travail à domicile efficaces, pérennes et sécurisées.

Enjeux IT - Par José Diz - Publié le 31 mars 2016