
La solution de datawarehouse open source massivement parallèle Doris soutenu par la Fondation Apache pourrait rivaliser avec ClickHouse, MariaDB, Apache Druid et Pinot. Apache Pinot. Mais aussi des services poussés par des hyperscalers comme Google BigQuery, Amazon RedShift et Microsoft Synapse.
La semaine dernière, Doris a atteint le statut de projet de premier niveau, ce qui, selon l’Apache Software Foundation (ASF), signifie qu‘« il a prouvé sa capacité à s’autogérer correctement ». Jusque-là, l’entrepôt de données analytique open source basé sur le traitement massivement parallèle (MPP) et sur SQL était en cours de développement au sein de l’Apache Incubator. Ce datawarehouse a récemment fait l’objet d’une version 1.0, la huitième de son cycle de développement dans l’incubateur (avec six versions Connector). Doris a été conçu pour supporter les charges de travail de traitement analytique en ligne (Online Analytical Processing, OLAP), souvent utilisées dans les scénarios de science des données. Initialement connu sous le nom de Palo, l’entrepôt de données Doris est né chez Baidu, le géant chinois de la recherche sur Internet, où il servait de système d’entreposage de données pour son activité de publicité avant d’être livré en open source en 2017 et d’entrer dans l’incubateur Apache en 2018.
Des racines dans Apache Impala et Google Mesa
Selon l’Apache Software Foundation, Doris découle de l’intégration de Google Mesa et Apache Impala, un moteur de requête SQL MPP open source, développé en 2012 et construit sur les fondements de Google F1. Conçu vers 2014, le système d’entreposage de données analytiques hautement évolutif Mesa était utilisé pour stocker des données de mesure critiques liées à l’activité de publicité sur Internet de Google. Selon ses développeurs, tant chez Baidu qu’au sein de l’incubateur Apache, Doris offre un design d’architecture simple tout en assurant une haute disponibilité, fiabilité, tolérance aux pannes et évolutivité. « La simplicité (de développement, de déploiement et d’utilisation) et la satisfaction de nombreuses exigences en matière de service de données dans un seul système sont les principales caractéristiques de Doris », a déclaré l’Apache Software Foundation dans un communiqué, ajoutant que l’entrepôt de données prenait en charge les rapports multidimensionnels, les portraits d’utilisateurs, les requêtes ad hoc et les tableaux de bord en temps réel. Parmi les autres caractéristiques de Doris, on peut citer le stockage en colonnes, l’exécution parallèle, la technologie de vectorisation, l’optimisation des requêtes, le SQL ANSI et l’intégration aux écosystèmes de big data via des connecteurs pour Apache Flink, Apache Hive, Apache Hudi, Apache Iceberg, Apache Spark et Elasticsearch, entre autres systèmes.
L’adoption des DB open source devrait se développer
L’adoption de bases de données open source de qualité professionnelle devrait se développer. Dans son rapport intitulé « State of the Open-Source DBMS Market 2019 », Gartner prévoit que, d’ici à la fin 2022, plus de 70 % des nouvelles applications internes seront développées sur un système de gestion de base de données open source (OSDBMS) ou une plateforme de base de données en tant que service (dbPaaS). De plus, à mesure que les données prolifèrent et que le besoin des entreprises en matière d’analyse en temps réel augmente, une base de données simple, mais à traitement massivement parallèle et également open source, semble correspondre à un besoin actuel. « Avec l’augmentation des volumes de données, les bases de données MPP sont devenues le seul moyen réaliste de traiter les données assez rapidement ou à moindre coût pour répondre aux demandes des entreprises », a déclaré David Menninger, directeur de recherche chez Ventana Research.
L’architecture cloud accroît l’intérêt pour les DB MPP
« La disponibilité d’instances de serveurs relativement peu coûteuses basées sur le cloud plaide aussi en faveur de ces bases de données MPP, car ces instances sont utilisables dans le cadre de la configuration MPP, évitant ainsi l’acquisition et l’installation de matériel physique pour ces systèmes », a encore déclaré M. Menninger. Pour défendre Doris, David Menninger a déclaré que, même s’il existe de nombreuses options de bases de données MPP, dont certaines sont open source, il n’y a pas vraiment d’alternative open source à MySQL pour les MPP. « MySQL lui-même et MariaDB ont été étendus pour exécuter des charges de travail analytiques plus importantes, mais elles ont été conçues à l’origine pour le traitement des transactions », a expliqué M. Menninger, ajoutant que la base de données open source PostreSQL Greenplum et les services hyperscalers comme Google BigQuery, Amazon RedShift et Microsoft Synapse pouvaient être considérés comme des rivaux de Doris. « ClickHouse, Apache Druid et Apache Pinot pourraient également être considérés comme des rivaux », a déclaré Sanjeev Mohan, ancien vice-président de recherche pour le big data et l’analytique chez Gartner.
Selon la Fondation Apache, l’utilisation de Doris pourrait présenter de multiples avantages, notamment la simplicité architecturale et des temps de requête plus rapides. L’une des raisons de la simplicité de Doris est liée à sa non-dépendance à de multiples composants pour des tâches comme la gestion des classes, la synchronisation et la communication. Sa rapidité d’interrogation peut être attribuée à la vectorisation, un processus qui permet à un programme ou à un algorithme d’opérer sur un ensemble de valeurs multiples en une seule fois plutôt que sur une seule valeur. Selon les développeurs de la Fondation Apache, l’entrepôt de données présente un autre avantage : la prise en charge d’une concurrence très élevée par Doris, ce qui signifie qu’il peut traiter les demandes de dizaines de milliers d’utilisateurs pour traiter les données et obtenir simultanément des informations de la base de données. Le besoin d’un niveau de concurrence élevé s’est accru parce que la plupart des entreprises autorisent leurs employés à accéder aux données afin d’en tirer des enseignements, alors que seuls les cadres supérieurs ont accès aux analyses.