Ne vous noyez pas dans votre lac de données

Dans des environnements toujours plus concurrentiels, les entreprises cherchent à prendre un avantage grâce à une stratégie de transformation numérique. Nombre d’entre elles ressentent l’urgence de transformer leur organisation de fond en comble : de la production aux opérations commerciales, les entreprises mettent en oeuvre des programmes d’innovations et d’efficacité des processus, en produisant des masses de données.

Jean-Michel Franco est directeur senior du marketing produit chez Talend. Il a auparavant occupé des postes clés en BI chez SAP et Business&Decision. (crédit : D.R.)

Les données demeurent la pierre angulaire de tout projet de transformation numérique. Si elles sont correctement intégrées, traitées et consommées, elles apportent une nouvelle vision, en rendant la prise de décision plus pertinente et permettent aux décideurs de s’écarter du subjectif, des hypothèses tronquées et de l’à peu près.

Dans un monde en constante évolution, où les données sont de plus en plus nombreuses, la nécessité de les regrouper s’est imposée d’elle-même. L’intention initiale étant de les croiser pour en déduire des informations pertinentes. D’après une étude de PwC et d’Iron Mountain, 75% des dirigeants sont persuadés que le futur de leur entreprise repose sur leur capacité à tirer le meilleur de leurs données. Pour autant, seuls 4% d’entre eux estiment avoir mis en place une approche axée sur la donnée au sein de leur organisation.

Votre data lake est-il un frein ou un accélérateur ?

Les initiatives de transformation numérique surgissent donc de toute part : le marketing digitalise ses campagnes, les divisions commerciales s’équipent d’outils CRM, les ressources humaines s’équipent d’applications de gestion des talents. Toutes ces initiatives génèrent un volume croissant de données, pas toujours reliées entre elles. Pour faire face à cette complexité, les départements IT ont alors trouvé dans les infrastructures cloud une souplesse et une facilité de déploiement inégalé.

Mais en retour, cette migration vers le cloud a elle-même généré d’autres challenges. Par exemple, une fois les données plus largement accessibles via les applications cloud, de plus en plus d’employés souhaitent y accéder. Et les utilisateurs métier sont à la recherche permanente de l’information la plus récente. Sous pression, les départements IT doivent à la fois traiter des données et des demandes toujours plus complexes. Et cela ne s’arrête pas là : les utilisateurs métiers veulent également préparer, partager et gérer eux-mêmes leurs données.

Ainsi pour alléger les tensions grandissantes entre IT et départements métiers, placer les données brutes en un seul lieu, où tout le monde peut y accéder, semblait alors être une solution idéale. Le concept de data lake initié par James Dixon en 2014 voulait que le « lac de données » devienne un large ensemble de données brutes, structurées ou non, , ou différents utilisateurs viendraient examiner, scruter les données ou en extraire des échantillons, afin de réaliser des analyses ou dégager des tendances. Cependant, de plus en plus d’organisations prennent conscience du temps passé et de l’effort consacrés à construire des data lakes immenses et souvent inutilisables, car dépourvus de gouvernance.

Quand les mauvaises données viennent enrayer la mécanique

De la même manière que les entrepôts de données (ou data warehouse) n’ont pas réussi à produire une analytique fiable et pérenne il y a 10 ans, le data lake risque en effet de se transformer en marécage de données si les entreprises ne les gèrent pas efficacement. Forrester présage ainsi que 33% des entreprises prévoient d’arrêter le support de leur data lake en 2018. En réalité, entreposer ses données en un seul endroit ne suffit pas à démocratiser l’usage des données. Si vous laissez les données sans contrôle, sans les enrichir, sans les qualifier, sans principes de gouvernance, vous cassez les bénéfices attendus du data lake : seul un faible nombre d’experts en donnée les exploiteront, mais vous n’aurez pas réussi à étendre son utilisation à un public métier beaucoup plus large.

Or, les données sont un réel atout pour l’entreprise et elles ceux révèlent désormais comme un actif stratégique. Publier, valoriser ou partager des données fausses ou fallacieuses est catastrophique pour une organisation. Elles entament la confiance et donc la valeur que les utilisateurs mettent dans les processus, les solutions et produits de l’entreprise. L’affaire du DieselGate illustre assez bien l’impact dévastateur qu’une tricherie sur les données provoque sur la réputation d’une entreprise : la plupart des consommateurs perdent confiance. Trafiquer les mesures de pollution atmosphérique émises par des gaz d’échappement pose ici un problème d’éthique. Et l’impact se mesure en milliards de dollars et dans une perte de confiance généralisée. Comment accorder du crédit dans la performance des voitures d’un fabricant quand ses propres mesures ont été intentionnellement falsifiées ?

La gouvernance créée la confiance qui entraîne le partage et crée la valeur

Le scandale Cambridge Analytica révélé en mars 2018 illustre un autre exemple d’un manque de gouvernance des données. À la première lecture, les failles dans les règles d’utilisation de Facebook ont permis à une agence tierce la récolte et l’exploitation de données personnelles par dizaines de millions. La sanction sur le marché financier a été immédiate : Facebook perdant près de 10 % de sa valeur (soit près de 50 milliards de dollars), les deux jours suivant la révélation de l’affaire par le Guardian. La sanction par les utilisateurs, arrive progressivement : c’est la perte de confiance dans un réseau social qui peine à maîtriser les données de ses utilisateurs. Or les données personnelles sont la raison d’être d’un réseau social qui vit sur la publicité ciblée sur ses utilisateurs.

Dans le contexte d’un data lake d’entreprise, la valeur vient du partage et donc du niveau de confiance que les employés ont dans leurs données. Et pas de confiance sans gouvernance. Sans gouvernance dans les solutions, dans les systèmes, dans les données, le data lake et les données qu’il contient sont inexploités, isolés et donc sans valeur. Intentionnelle ou pas, la mauvaise donnée peut donc mettre en péril le data lake et in fine la performance globale de l’entreprise.

Les clés pour bien gouverner son data warehouse dans le cloud

Le data lake gouverné est une solution pour répondre aux principaux défauts des data lake. L’approche suivante en 4 étapes permet de moderniser le data warehouse dans le cloud tout en permettant de décloisonner les données à forte valeur.

1. Unifiez les différentes sources de données et les réconcilier : Faites-en sorte que l’organisation dispose de l’infrastructure ou des solutions nécessaires pour intégrer une large quantité de source de données, quel que soit la structure, le format, la taille. Entreposer une grande quantité d’informations dans un seul endroit est une première étape, mais c’est loin d’être suffisant. Unifier et standardiser les pipelines de données. Assurez-vous ensuite que l’entreprise dispose d’une plateforme cloud avec des fonctionnalités puissantes d’intégration de données pour traiter les big data à un coût raisonnable.

2. Des données de confiance accessibles à tous : gérer les données dans le cloud pour profiler, préparer, masquer, nettoyer et les enrichir, tout en contrôlant la qualité de celles-ci. En couplant l’intégration et la préparation des données avec les capacités d’un « cloud data warehouse », vous vous assurez que les données partagées soient structurées, mises en qualité pour accroître leur usage et faciliter la prise de décisions.

3. Pensez coopération autour de vos données : Le schéma classique de la chaîne de valeur où la donnée est produite par l’IT et ensuite consommée par les métiers n’est plus valide. De nos jours, toute personne est en mesure de créer du contenu, d’ajouter du contexte, d’enrichir le contenu et de le partage avec d’autres. Mais si vous ne le gouvernez pas, vous mettez en péril la gestion des données en entreprise. Prenons l’exemple de Wikipédia : grâce à des règles de gouvernance élaborées, Wikipedia fait en sorte que chacun puisse contribuer, modérer et créer de nouvelles entrées au sein de l’encyclopédie. Chaque entreprise devrait faire de même en déléguant l’autorité, les contrôles, les droits d’accès aux métiers, les nouveaux consommateurs de la donnée en entreprise.

4. Démocratisez l’accès aux données et encouragez son utilisation :Sans impliquer les équipes sur la validation, l’usage et le traitement de la donnée, il sera difficile de mettre en place une stratégie orientée donnée. Grâce aux architectures de type multi-cluster d’un cloud data warehouse combiné aux outils de gestion de données, vous facilitez le partage de données structurées à tous les départements de votre entreprise.

Il est primordial de voir les données comme un atout stratégique. Sa valeur provient du partage. Mais pour partager, encore faut-il avoir confiance. Les données sont comme un diamant brut caché qui sommeille au sein des entreprises. Une fois mises en qualité, traitées en flux et partagées, elles révéleront leur vraie valeur. Ceux qui se lancent dans cette nouvelle ruée vers l’or, à déployer une stratégie orientée donnée auront définitivement une longueur d’avance sur leurs concurrents.