Datadog ajoute du machine learning à son APM

Spécialisée dans la surveillance des principales métriques cloud, la start-up Datadog monte en puissance avec ajoutant des fonctionnalités analytiques et machine learning à sa plateforme.

Olivier Pomel a réussi son premier grand rendez-vous avec ses clients et partenaires lors de sa convention Dash à New York (crédit D.R.)

En direct de New-York – Après une première journée de mise en jambes avec des ateliers techniques consacrés à l’automatisation continue ou l’exploitation de Kubernetes, la convention Dash de Datadog est revenue aux classiques du genre avec une keynote où se sont succédées très rapidement – trop peut-être – des témoignages clients (Airbnb, Zendesk et Square), des partenaires et des dirigeants de la start-up lancée en 2010. Cofondateur et CEO de Datadog, Olivier Pomel a introduit la matinée avant de passer la main aux différents directeurs produit et développement qui ont présenté les dernières nouveautés. « Nous avons créé Datadog pour rapprocher les Dev et les Ops, afin de casser les silos et que chacun s’intéresse ce que les applications peuvent apporter au business,» a indiqué en ouverture le CEO.

La start-up spécialisée dans le monitoring des infrastructures, des containers et des applications clouds privés et publics (AWS, Azure, GCPRed Hat OpenShift et OpenStack) à l’aide d’un agent écrit en Go, a indiqué répondre aux demandes de ses clients en présentant tout d’abord un outil destiné à créer une topologie dynamique des services et applications exploités dans une entreprise. Baptisé Service Maps, cette fonctionnalité permet de mesurer les effets et interactions d’une application ou d’un service sur les autres composants. « Le design des applications et leur évolution dans un environnement réel est souvent très différent » a expliqué Ashley Miller, directeur de l’ingénierie chez Datadog. 

La topologie dynamique des applications et services arrive chez Datadog, a expliqué Ashley Miller, directeur de l’ingénierie chez l’éditeur. (crédit S.L.)

Les connexions entre les services et les microservices sont difficiles à suivre et à évaluer, voilà pourquoi Datadog présente un outil qui ressemble un peu à ce que propose déjà Sysdig. « Les vieux schémas sur les tableaux blancs prennent du temps à réaliser, mais ils sont très utilisés pour suivre les liens entre les microservices ». Comme est venu l’expliquer sur scène Willie Yao, engineering manager chez Airbnb, « avec Service Maps, nous allons plus loin pour suivre les interactions entre un client et un hébergeur […] Quand un hôte veut contacter un client, nous pouvons suivre le processus qui s’affiche sur la carte ». Service Maps est aujourd’hui disponible en version technical preview. 

« Avec Service Maps, nous allons plus loin pour suivre les interactions entre un client et un hébergeur », a indiqué Willie Yao, engineering manager chez Airbnb. (crédit : S.L.)

Récupérer et analyser tous ses logs

Autre annonce ce matin à New-York, la capacité à récupérer les logs de manière centralisée et plus économique. Logging without Limits vient aider les développeurs qui gèrent des applications complexes dans le cloud. L’intégration de cet outil dans Datadog va permettre d’analyser les logs afin d’être plus efficaces en cas d’incidents, a indiqué lors de la keynote Renaud Boutet, directeur produit chez Datadog. « Nous ne pouvons pas nous logger autant que nous le voulons, les logs sont tellement différents et la saisonnalité joue aussi sur la quantité générée. Alors comment choisir quels logs collectés ? Avec Logging without Limits, nous décomposons l’ingestion et l’indexation des logs avec un process facturé 10 cents le Go ». L’enrichissement et l’archivage des journaux centralisés dans la solution de stockage cloud d’un client sont de plus réalisés sans frais supplémentaires. « Activer et désactiver, à la demande, l’indexation des sous-ensembles de logs qu’il faudra peut-être rechercher plus tard, est facturé 1,27 $ par million d’événements par mois », précise l’éditeur. 

La collecte et le traitement des logs arrive dans une seconde mouture majeure depuis le rachat de Logmatic, a expliqué Renaud Boutet, directeur produit chez Datadog. (crédit : S.L.)

L’archivage de tous ces journaux d’évènements est également envisageable sur une plateforme comme AWS S3 sans coût supplémentaire. L’observation en temps réel des logs est également de la partie tout comme l’affichage de toutes les informations le concernant. Rappelons que ces fonctionnalités sont issues du rachat de la société Logmatic, mais le produit a été entièrement réécrit pour s’intégrer à la plateforme de Datadog. Une première release a été présentée il y a six mois, et aujourd’hui plusieurs versions se sont succédées, nous a indiqué Olivier Pomme lors d’un entretien, avant de livrer cette seconde mouture aux clients.

Evolution majeure pour la brique de base

Datadog vient également renforcer sa solution d’origine avec une évolution majeure baptisée Trace Search and Analytics. « Cela va changer la façon de monitorer les applications avec une partie analytique renforcée pour suivre et mieux comprendre le fonctionnement des applications et services […] nous voulons briser les silos et exporter les graphiques dans le tableau de bord de Datadog », a souligné Brad Menezes, directeur de la gestion des produits chez Datadog. Cette fonctionnalité permet aux opérateurs d’explorer, de représenter graphiquement et de corréler les données de performance des applications. Avec Trace Search and Analytics, les utilisateurs peuvent localiser des traces exactes pour des clients spécifiques en filtrant les attributs clés de l’entreprise et de l’application tels que les noms d’utilisateur, le client, l’hôte, les SKU du domaine, la valeur en dollars… indique la start-up dans un communiqué. 

Évolution du produit APM de Datadog, Trace Search & Analytics est une réponse au besoin des clients de la start-up qui désire trouver rapidement des traces spécifiques pour déterminer la cause d’un incident, a souligné Brad Menezes, directeur de la gestion des produits chez Datadog. « J’ai été ravi de voir les utilisateurs adopter cette fonctionnalité et modifier leur flux de travail quotidien ». Hemant Kataria, senior manager DevOps chez Zendesk, est monté sur scène témoigner de son utilisation de la solution. « Nous utilisons Trace Search and Analytics depuis quelques mois dans un environnement multiple et la recherche globale de toutes vos traces, logs et mesures depuis un seul outil est particulièrement appréciable […] Trace Search and Analytics dans Datadog APM a permis à notre équipe de développeurs de concentrer la surveillance de la performance des applications sur des points spécifiques et de corréler leurs expériences avec celle la santé de l’infrastructure sous-jacente », a ajouté Hemant Kataria. « Cette fonctionnalité est maintenant utilisée à travers Zendesk dans les enquêtes de performance, la planification des capacités et les post-mortems ». 

Watchdog activé par défaut pour l’APM

Dernière annonce de la matinée, l’arrivée de la fonctionnalité Watchdog qui exploite des capacités machine learning pour identifier automatiquement les problèmes potentiels au niveau des applications. Les algorithmes ont été développés et surtout calibrés en interne pour s’assurer de leur pertinence et éviter de remonter de fausses alertes nous a indiqué Olivier Pomel. « Il n’y a rien à configurer pour construire un système capable d’améliorer le monitoring des données et se concentrer sur les points importants » a expliqué sur scène Homing Lee, responsable des data scientist chez Datadog. Dans le cadre d’un monitoring traditionnel, les administrateurs estiment le comportement de leur application, et établissent des tableaux de bord et alertes pour surveiller les écarts par rapport à ce comportement. Mais des problèmes se produisent souvent à des endroits inattendus. « Alors que la complexité des applications explose, la détection de problèmes automatisée devient indispensable pour la conception d’applications ultra-performantes et fiables dans le cloud, » a précisé Homin Lee.

Alexis Lê-Quôc, cofondateur et CTO de Datadog, est venu introduire les dernières nouveautés de la start-up. (crédit S.L.)

« Watchdog s’appuie sur des années de recherche, de développement et d’amélioration d’algorithmes basés sur les données [anonymisées] de nos clients. Cette technologie est unique parce qu’elle n’identifie pas seulement un problème à l’aide d’un programme informatique, elle oriente les utilisateurs vers les probables causes profondes afin qu’ils lancent une investigation. » Cette fonctionnalité en développement depuis plusieurs années est proposée aux clients pour l’APM dans un premier temps nous a explique Olivier Pomel. Mais ce sont aussi des algorithmes qui pourront être utilisés avec les infrastructures [la brique de base de Datadog] et ensuite les logs dans le cloud. « On regarde par exemple parmi nos clients si des clients ont le même problème avec un fournisseur afin de déceler un problème réseau dans un cloud public », nous a indiqué le CEO. « L’infrastructure arrivera vite après les feedbacks des clients sur la partie APM. Les logs viendront après. Nous privilégions une approche conservatrice afin de limiter les faux positifs » et les alertes intempestives. Interroger sur l’usage cette technologie pour la sécurité, le CEO n’écarte pas la chose et avoue que certains clients ont commencé à paramétrer l’outil dans ce sens.

Toujours une croissance de start-up

Plus de simplicité, mais avec des retours plus pertinents grâce au machine learning, gestion des logs pour venir marcher sur les plates-bandes de Splunk qui déborde également de son cadre d’origine pour braconner sur d’autres terres que la sécurité, un zeste d’analytique pour aider les clients à mieux comprendre leurs données… Datadog n’a pas fait les choses à moitié pour sa première convention Dash. Le rythme était soutenu mais le rendez-vous marquant pour la start-up qui avoue un chiffre d’affaires dépassant les 150 millions de dollars avec plus de 700 employés dans le monde dont la moitié à New-York, un tiers à Boston (beaucoup de commerciaux au téléphone) et 120 à Paris avec des commerciaux et des développeurs. 

chevron_left
chevron_right