Big Data Paris 2018 : Des projets en production à pérenniser

RGPD, prépondérance des algorithmes, mais aussi diversification des offres de PaaS big data ou projets IoT figurent parmi les focus de Big Data Paris 2018. Du côté des entreprises, on s’attelle à pérenniser les projets en production, après les premiers chantiers réussis.

Sur Big Data Paris 2018, le 12 mars, Laurence Devillers, chercheuse au LIMSI-CNRS, présente l’institut DATAIA créé fin 2017, tandis qu’Alexis de Gemini, PDG de Deezer, explique le recours à l’IA pour son service d’écoute de musique. (Crédit : LMI/MG)

Ouvert hier matin pour deux jours au Palais des Congrès de la porte Maillot, le salon Big Data Paris en est déjà à sa 7^ème édition avec, toujours, une forte affluence dans ses allées, tant sur les stands d’éditeurs historiques comme Teradata, Microstrategy et SAP, que d’acteurs comme Hortonworks, Cloudera et MapR ou d’un Confluent qui s’est focalisé sur la plateforme de gestion de flux de données Apache Kafka, de nouveaux venus comme Snowflake dans le datawarehouse cloud ou d’acteurs français tels qu’Advanced Schema, Dataiku ou Saagie qui vient de lever 5 M€ sur sa solution big data. L’ombre portée du RGPD marque le salon, à quelques semaines de l’entrée en vigueur du règlement européen sur la protection des données personnelles, de même que les débats qui se multiplient sur l’importance prise par les algorithmes et l’emprise de l’intelligence artificielle.

L’éditeur MapR a fait évoluer sa prise en charge des applications conteneurisées.

En ouverture de séance plénière, Mounir Mahjoubi, secrétaire d’état chargé du Numérique, a notamment abordé la portabilité des données personnelles conservées par les plateformes Internet, suggérant aux utilisateurs de réclamer leurs données aux GAFA. Lui-même dit avoir ainsi récupéré, sur 2 CD, douze années de commandes faites sur Amazon. En cours de matinée, le grand amphithéâtre du Palais des Congrès a ensuite accueilli une table ronde sur la place de l’humain dans les processus big data. Laurence Devillers, chercheuse au LIMSI-CNRS (laboratoire de recherche en informatique pluridisciplinaire), a rappelé la création il y a 3 mois de DATAIA, institut de convergence dédié aux sciences de la donnée et à leurs enjeux socio-économiques en France. L’un des objectifs, a-t-elle expliqué, est de « rendre plus compréhensibles ces systèmes de boîtes noires » qui font appel à des technologies comme le deep learning, et « de demander aux industriels qui les fabriquent de les rendre plus lisibles » car on va y être connectés de plus en plus, dans des domaines aussi sensibles que la santé, en particulier. « L’intérêt de l’institut est de mettre ensemble des chercheurs et des industriels pour mieux comprendre ces manipulations », a-t-elle ajouté en indiquant travailler aussi avec des juristes, des économistes et des chercheurs venant d’autres pays : « Il faut réfléchir à ces objets qui viennent de partout et les penser avec l’humain au centre ».

Deezer injecte de la culture dans l’algorithme

A ses côtés, Alexis de Gemini, PDG du site français Deezer, a expliqué à son tour comment son service réintroduisait de l’humain pour éditorialiser l’écoute de musique en streaming et faire découvrir à ses abonnés des morceaux qu’ils n’auraient pas spontanément souhaité écouter. Pour faire des recommandations musicales à un instant T en tenant compte de différents critères, « nous avons besoin d’analyser de l’information et d’un algorithme, mais également de collaborateurs qui écoutent de la musique dans le monde entier ». C’est l’algorithme et les méta-données associées qui permettent de faire des propositions. « Nous développons une sorte de veille transversale du Net, et c’est là où l’intelligence artificielle nous aide, pour voir ce qui se recommande sur toutes les plateformes de référence », explique Alexis de Gemini. « Nous nous servons de cela pour enrichir la sélection des bons morceaux. » Deezer fait notamment une analyse sémantique des articles de journalistes spécialisés à travers le monde.

Dans les allées, les stands de MapR et Dataiku côtoient ceux de Confluent et Cloudera. (crédit : LMI/MG)

Interpellé sur la « bulle de filtre » qui, par une trop forte personnalisation, risque d’enfermer les utilisateurs dans un isolement intellectuel, le PDG de Deezer considère qu’il s’agit effectivement d’un point très important. « Je me bats toute la journée contre la mentalité algorithmique que peuvent avoir certains de nos ingénieurs et développeurs parce que nous devons remettre des passerelles entre les musiques et ça, ça requiert de la culture », fait remarquer Alexis de Gemini. « Savoir qu’un morceau de Nina Simone a été samplé par l’artiste de musique électronique St Germain et que quelqu’un qui n’écoute que de l’électro va découvrir le jazz grâce à lui, l’algorithme ne le sait pas », pointe-t-il. « Alors on peut l’aider et lui dire quand il y a du jazz dans un morceau ». L’éditeur français travaille avec des organismes spécialisés dans la reconnaissance audio pour identifier par exemple qu’il y a un sample de jazz dans un morceau. « Et l’on essaie petit à petit d’entraîner nos machines pour qu’elles soient plus intelligentes dans l’ouverture culturelle », explique Alexis de Gemini. Interrogé sur l’usage fait par Deezer des play lists de ses utilisateurs, en dehors des recommandations, le PDG reconnait que « vos goûts musicaux disent énormément de vous », mais il assure que le site « ne fait pas commerce de la cartographie musicale [de ses abonnés] pour l’instant ».

Embarquer les métiers aux côtés des data scientists

Sur l’espace d’exposition, la forte fréquentation des stands manifestait l’intérêt des visiteurs, notamment sur les présentations ponctuelles proposées par les éditeurs. Croisé dans les allées, Florian Douetteau, PDG de Dataiku, relève l’aspect de maturité de ce rendez-vous désormais établi, avec des clients qui passent maintenant en production après de premiers cas d’usage big data couronnés de succès. Dans les entreprises se pose alors la question de la pérennité des projets à 3, 4 ou 5 ans avec des réflexions sur les recrutements à mener et les compétences à associer, nous a exposé le PDG de l’éditeur français. « Quelles vont être mes prochaines recrues si je fais passer mes équipes data à l’échelle, en interne ou en externe, et pas uniquement avec des data scientists ? ». L’enjeu, souligne le fondateur de la plateforme de data science, « c’est de faire travailler à long terme des data scientists avec des profils qui viennent de la BI et qui sont plus des business analysts ». Après les premiers parcours big data réussis, menés avec enthousiasme sur des périmètres spécifiques et nouveaux, par exemple sur des catégories de clients non traitées jusque-là, il faut désormais transformer ces essais en les intégrant dans les projets existants qui n’auront peut-être pas le même impact. Mais, surtout, il faut cette fois « embarquer les métiers dès le début » aux côtés des data scientists, pointe Florian Douetteau.

Des outils pour maintenir les modèles développés

Parmi les évolutions apportées à l’offre Dataiku, Florian Douetteau souligne par ailleurs le changement de paradigme intervenu avec la multiplication des modèles de données. Les équipes de marketing peuvent se retrouver avec 20, 30 ou 40 modèles de scoring pris en charge par des effectifs de data scientists qui restent souvent limités, notamment dans les entreprises plus petites. Pour maintenir ces modèles dans le temps, la plateforme Dataiku s’est enrichie fin 2017 de fonctions pour en gérer le cycle de vie, avec des alertes, par exemple en cas de données manquantes, lorsqu’un modèle s’étiole ou lorsque l’on s’aperçoit de dérives sur le réentrainement d’un modèle (qui s’effectue par exemple toutes les semaines).

Autre enjeu, le règlement sur la protection des données personnelles. « Le GDPR est dans la tête de tout le monde et sa mise en œuvre, importante, oblige à comprendre quelles données sont utilisées et où elles le sont, à être plus fin pour savoir si une donnée est personnelle ou pas, savoir dans quel contexte chacune a été connectée et savoir la tracer dans le SI de l’entreprise », rappelle Florian Douetteau. Il faut donc, selon lui, des systèmes beaucoup plus intégrés pour gérer les données brutes de bout en bout et pas de façon tronçonnées dans 3 ou 4 systèmes différents. Le GDPR pourrait alors servir de catalyseur pour gérer les données de manière transverse avec une responsabilité globale confiée à un chief data officer. En septembre, lors de la levée de fonds de 23,5 M€, le PDG de Dataiku nous avait expliqué vouloir faire de Dataiku la plateforme sur laquelle on capitalise.

PaaS Analytics en bêta chez Cloudera

Du côté des fournisseurs américains, MapR Technologies a annoncé il y a quelques jours une évolution de Data Fabric for Kubernetes qui étend l’intégration des containers dans sa plateforme Converged Data. La solution fournit du stockage persistant pour les containers et permet le déploiement d’applications conteneurisés « stateful », en assurant la persistance de leur état. Cloudera, pour sa part, met toujours l’accent sur son PaaS Altus lancé l’an dernier sur la partie Engineering pour le traitement des données. Celui-ci arrive en bêta sur sa partie analytique proposant un service de datawarehouse, nous a indiqué sur le stand de l’éditeur Sarah Lallam, responsable marketing France et Moyen-Orient de Cloudera. Bâti pour simplifier les projets big data, ce PaaS peut être déployé sur les clouds publics AWS et Azure, nous a-t-elle rappelé, en mentionnant par ailleurs la sortie il y a quelques mois de la plateforme collaborative Data Science Workbench. Celle-ci permet aux data scientists – travaillant avec R, Python, Spark ou Scala – de gérer leurs processus de traitement de données (préparation, monitoring, alertes) et de prototyper des projets d’apprentissage machine. Dans le domaine du machine learning, Sarah Lallam a également mentionné le rachat en septembre dernier du cabinet de conseil Fast Forward Labs, spécialisé en IA.

Confluent, des services pour maîtriser Apache Kafka

Près des stands Dataiku et MapR, l’éditeur Confluent, créé il y a 3 ans par une partie des développeurs d’Apache Kafka, présentait son offre de services. La société a ouvert des bureaux en France en août après s’être installée à Londres en janvier 2017. La plateforme de gestion de flux de données en temps réel Kafka, qui se présente comme une technologie de pub/sub, permet de gérer et stocker indéfiniment les données. Parmi les cas d’usage figurent en particulier les applications de low latency trading dans le secteur bancaire ou encore la connaissance client 360 pour réagir en temps réel à un achat, nous a notamment cité Leo Delmouly, de l’équipe commerciale de Confluent France.

Parmi les utilisateurs français, une grande banque gère un data hub pour des flux de données « client facing » sur des applications en temps réel. Parmi les cas d’usage bancaire, Kafka peut être utilisé pour savoir, par exemple, combien de fois un client utilise son app mobile par jour afin de réagir avec lui en temps réel sur le meilleur canal. La plateforme de streaming est néanmoins assez complexe à utiliser en production lorsque l’on ne dispose pas des bonnes compétences, rappelle Leo Delmouly. D’où la création de Confluent qui propose des services, par exemple pour répliquer des données entre datacenters, migrer vers le cloud, etc.

Nodata gère les méta-données et laisse les données sur site

Parmi les nombreux éditeurs français présents sur Big Data Paris, Advanced Schema, disposait d’un stand spacieux pour présenter sa plateforme Nodata (not only data). Cette entreprise de services numériques fondée il y a plus de 15 ans, regroupe 180 personnes dont une soixantaine en R&D. Après avoir accompagné pendant de nombreuses années ses clients sur la mise en place de datawarehouses en créant ses propres outils pour le faire, elle a lancé il y a deux ans, à travers sa filiale Nodata, une solution cloud de gestion des données (collecte, intégration, modélisation, tableaux de bord) qui permet aux entreprises de conserver leurs données chez elle si elles le souhaitent. « La solution travaille sur les métadonnées », nous a expliqué Nicolas Brigitte-Alphonsine, PDG de Nodata. « Elle a été préparée dans le cloud, mais nos clients ont des problématiques réglementaires fortes ». D’où la proposition de conserver les données où elles se trouvent. « La plateforme va connaître le contour des données, les métadonnées, le nom de la table, la forme du graphique, etc. Ce sont les informations que nous stockons. En revanche, nous ne stockons pas les données elles-mêmes, nom du client, etc. ». La solution Nodata comporte une partie logicielle à installer sur l’infrastructure du client. Parmi ses utilisateurs figurent le groupe Renault et sa filiale bancaire RCI Bank and Services, ainsi que le groupe d’assurance et gestion de patrimoine SwissLife.

IoT au coeur du big data

Les projets liés à l’Internet des objets constituent également une part importante du salon Big Data Paris, à travers les conférences, notamment hier celle de Schneider Electric au cours de laquelle Rodolphe Heliot, directeur de l’incubation business du groupe, a expliqué comment les outils analytiques étaient embarqués dans le matériel sur le terrain pour injecter des analyses dans les workflows des clients en temps réel. « Il faut vraiment comprendre l’ensemble du workflow du client pour ajouter des services et rendre le big data vraiment exploitable », a-t-il souligné en précisant que Schneider Electric travaillait avec plus de 20 000 intégrateurs systèmes et développeurs. Des fournisseurs comme Teradata et SAP présentaient également leurs solutions IoT.

Le salon Big Data Paris se tient au Palais des Congrès jusqu’à ce soir 13 mars.