Oracle lance une plateforme de data science dans le cloud

Oracle tire parti des éléments acquis en 2018 avec le rachat de DataScience.com pour offrir une plateforme de data science dans le cloud.

La plateforme datascience d’Oracle veut rassembler les experts en data et mise sur le collaboratif. (Crédit Photo: Geralt/Pixabay)

En lançant la plateforme Cloud Data Science, Oracle veut devenir un acteur important dans la science des données. Développée avec les actifs de DataScience.com, une entreprise rachetée en 2018 par Oracle, la plateforme veut attirer les équipes de data scientists travaillant en mode collaboratif, leur offrant notamment la possibilité de gérer des projets partagés, des catalogues de modèles, des politiques de sécurité en équipe, ainsi que des capacités de reproductibilité et d’auditabilité.

Parce que la plateforme repose sur le service Cloud Infrastructure Data Science, les utilisateurs peuvent construire, entraîner et gérer des algorithmes d’apprentissage machine dans Oracle Cloud en utilisant Python, TensorFlow, Keras, Jupyter et d’autres outils de data sciences populaires. Six services supplémentaires complètent la plateforme :

– Autonomous Database : il intègre de nouvelles capacités d’apprentissage machine. Oracle a ajouté le support de Python et l’apprentissage machine à Oracle Autonomous Database. L’intégration prochaine avec Oracle Cloud Infrastructure Data Science permettra aux spécialistes des données de développer des modèles en utilisant des algorithmes open source et évolutifs dans la base de données.

– Cloud Infrastructure Data Catalog : le catalogue de données permet de découvrir, de trouver, d’organiser, d’enrichir et de suivre les ressources de données. Il comporte un glossaire métier intégré.

– Big Data Service : ce service offre une implémentation complète de Cloudera Hadoop, plus de l’apprentissage machine pour Spark.

– Cloud SQL : ce service permet aux utilisateurs d’exécuter des requêtes SQL sur des données dans HDFS, Hive, Kafka, NoSQL et Object Storage.

– Cloud Infrastructure Data Flow : ce service entièrement géré permet aux utilisateurs d’exécuter des applications Apache Spark sans avoir à déployer ou à gérer l’infrastructure.

– Cloud Infrastructure Virtual Machines for Data Science : ce service offre des environnements préconfigurés basés sur des GPU, au tarif de 30 dollars HT/jour.

« Ce service natif dans le cloud qui vise essentiellement à offrir un environnement de collaboration et de gouvernance aux spécialistes des données est sans aucun doute le premier du genre, dans la mesure où il est vraiment taillé pour l’entreprise », a déclaré Greg Pavlik, vice-président senior du développement de produits Data et AI Services chez Oracle.

Selon Greg Pavlik, l’offre cible le cycle de vie complet de l’apprentissage machine dans l’entreprise, c’est-à-dire qu’elle n’est pas seulement destinée à développer ou à entraîner des modèles, mais aussi à mettre les modèles en production et à en assurer la maintenance. « À mesure que les données changent, les modèles deviennent potentiellement moins valables. D’une part, les utilisateurs doivent pouvoir continuer à les exploiter dans les applications ou dans les rapports analytiques. D’autre part, ils doivent avoir la certitude que les modèles qu’ils utilisent leur fournissent les bons résultats ou les réponses appropriées », a expliqué M. Pavlik.

Simplifier la science des données

Cloud Infrastructure Data Science rivalise avec les plateformes de concurrents comme Alteryx, Knime Analytics Platform et RapidMiner, avec un positionnement plus fort sur l’automatisation du flux de travail des data sciences. « La plateforme exploite l’algorithme AutoML de sélection et de tuning, et s’appuie sur des modèles d’apprentissage machine pour sélectionner l’algorithme le plus adapté à un cas d’usage spécifique, et aider les utilisateurs à choisir les entrées d’algorithme et à affiner le modèle », a encore expliqué M. Pavlik. La plateforme simplifie également l’ingénierie des caractéristiques en identifiant automatiquement les principales spécificités prédictives à partir d’ensembles de données plus importants. Cloud Infrastructure Data Science facilite également l’évaluation des modèles en générant une série de mesures et de visualisations pour aider les utilisateurs à mesurer les performances des modèles par rapport aux nouvelles données et à établir un classement des modèles dans le temps.

Pour soutenir les efforts de conformité réglementaire et aider les équipes de data scientists à avoir confiance dans le résultat de leurs algorithmes, l’offre d’Oracle fournit une explication automatisée de la pondération et de l’importance des facteurs utilisés pour générer une prédiction. « Nous avons développé dans notre Oracle Labs des capacités avancées pour expliquer les modèles », a encore déclaré M. Pavlik. « Il s’agit de comprendre précisément comment le modèle est amené à faire sa prédiction, ce qui est particulièrement important pour les situations réglementaires où il faut être capable d’expliquer pourquoi l’entreprise prend cette décision, pourquoi le modèle nous dit de faire telle ou telle chose ».

Projets partagés

En termes de collaboration, Oracle s’est inspiré des processus modernes de développement de logiciels, en ajoutant des capacités supportant les projets partagés, les catalogues de modèles, les politiques de sécurité basées sur l’équipe, ainsi que la reproductibilité et la responsabilité. « Le gros problème que nous rencontrons souvent avec les équipes, c’est que les scientifiques chargés des données téléchargent un tas de choses sur leur ordinateur portable et travaillent ensuite dans un isolement relatif », a expliqué M. Pavlik. « Cela fait perdre le sens de la responsabilité, de la sécurité et des meilleures pratiques que l’on appliquerait en temps normal dans le développement de logiciels. Nous cherchons donc à aider les entreprises à résoudre ce problème, sans rien enlever au spécialiste des données ».

La plateforme permet aux équipes de tirer parti du contrôle de version et de partager des données et des sessions sur leur ordinateur portable. Les catalogues de modèles permettent également aux équipes de partager des modèles et les artefacts nécessaires pour les modifier et les déployer. Les politiques de sécurité basées sur les équipes offrent des contrôles d’accès aux modèles, aux codes et aux données, le tout intégré à la gestion des identités et des accès de Cloud Infrastructure Identity et Access Management. Les entreprises peuvent également suivre les actifs via la plateforme, garantissant ainsi que les modèles peuvent être reproduits et audités, même en cas de départ des membres de l’équipe.