Après Snowflake, Databricks ajoute l’analyse IA basée sur SQL

La dernière fonctionnalité d’analyse IA basée sur SQL de Databricks prend en charge les tableaux, les figures et les diagrammes avec des métadonnées spatiales, rendant les documents consultables et exploitables dans les flux de travail IA.

Databricks et Snowflake s’affrontent encore, et le champ de bataille est désormais celui de l’analyse de documents basée sur SQL. Dans une course toujours plus intense pour dominer les charges de travail IA des entreprises grâce à l’automatisation pilotée par des agents, Databricks a ajouté des capacités d’analyse IA basées sur SQL à son framework Agent Bricks, quelques jours seulement après que Snowflake ait introduit une fonctionnalité similaire dans sa plateforme Intelligence. Ces capacités sont conçues pour aider les entreprises à analyser des données non structurées, de préférence à l’aide de requêtes SQL automatisées par un agent.

La possibilité d’interroger des données non structurées à l’aide de méthodes relativement plus simples mais automatisées, par rapport à la création et à l’exécution de pipelines ETL coûteux, est un élément essentiel de l’objectif commun que partagent les data store tels que Snowflake et Databricks. Cette ambition correspond actuellement à la demande des entreprises, selon Mansi Gupta, directeur des pratiques chez Everest Group : « Dans le contexte actuel où les coûts sont pris en compte, les entreprises souhaitent exploiter des ensembles importants de données et complexes sans augmenter leurs dépenses ». De plus, la possibilité d’interroger simultanément des données structurées et non structurées aide généralement les sociétés à générer des informations plus précises et à accélérer la prise de décision.

AI parse document dans le détail

La fonctionnalité « ai_parse_document » de Databricks est actuellement en préversion publique et vient s’ajouter aux capacités IA d’Agent Bricks, sa plateforme de création d’agents IA. Quand elle est invoquée dans un workflow d’agents, elle analyse l’intégralité d’un document, et pas seulement le texte, bien qu’elle soit actuellement limitée à des formats tels que Pdf, Jpg / Jpeg, Png, Doc/Docx et Ppt/Pptx. « ai_parse_document capture les tableaux, les figures et les diagrammes avec des descriptions générées par l’IA et des métadonnées spatiales, et stocke les résultats dans Unity Catalog. Vos documents se comportent désormais comme des tableaux : ils peuvent être recherchés grâce à la recherche vectorielle et utilisés dans les workflows Agent Bricks », a écrit l’équipe Mosaic Research de Databricks dans un blog.

Avant l’introduction de ce service, les utilisateurs de Databricks devaient recourir à diverses approches, telles que l’OCR, les expressions régulières et les scripts ETL personnalisés, pour normaliser les textes non structurés, a déclaré Charlie Dai, vice-président et analyste principal chez Forrester. « Avec ai_parse, l’analyse syntaxique devient déclarative et pilotée par des modèles, ce qui réduit les frais généraux d’ingénierie », a ajouté M. Dai. Les entreprises pourraient également étendre la capacité d’analyse des documents à autant de documents que nécessaire grâce à l’intégration avec Spark Declarative Pipelines, y compris la possibilité d’analyser automatiquement les documents à leur arrivée, a déclaré Databricks. « Le traitement incrémental à grande échelle des documents… permet une ingestion transparente, une logique de réessai, la détection des changements et l’orchestration des nouveaux documents arrivant quotidiennement. Cela est inestimable pour l’IA de production, la conformité et les rapports commerciaux, où la fraîcheur et la fiabilité des données sont essentielles », a déclaré Pareekh Jain, analyste chez Jain Consulting.

Snowflake contre Databricks

La fonction ai_parse de Databricks est, dans une certaine mesure, similaire à l’offre Agentic Document Analytics récemment présentée par Snowflake, qui est commercialisée comme une approche complémentaire aux pratiques RAG actuelles. Elle donne en effet aux entreprises la possibilité d’interroger des milliers de documents en une seule fois grâce à l’utilisation d’agents de données. Selon Baris Gultekin, vice-président de l’IA chez Snowflake, Agentic Document Analytics combine les capacités des fonctions Cortex AISQL existantes, telles que ai_parse_document, ai_extract, ai_filter et ai_agg, dans la plateforme Intelligence pour analyser les documents et leur contenu. En comparant la fonction ai_parse Document à Agentic Document Analytics, M. Gultekin a souligné que si la fonction d’analyse elle-même renforce la qualité des données pour le RAG en fournissant un contexte de recherche précis, Agentic Document Analytics permet une analyse quantitative et temporelle de ces résultats analysés.

Selon les analystes, les offres des deux fournisseurs vont aider les entreprises à réduire la complexité des flux de travail nécessaires à l’analyse des données non structurées, en particulier les documents. Historiquement, les entreprises ont dû mettre en place des pipelines OCR complexes, lents et fragiles si elles voulaient intégrer des données provenant de documents, tels que des PDF, dans un flux de travail IA, ce qui a abouti à la création du RAG, qui permettait une recherche sémantique sur du texte analysé, mais qui avait encore du mal à traiter les structures de documents nuancées telles que les tableaux, a déclaré Bradley Shimmin, responsable des données, de l’analyse et de l’infrastructure chez The Futurum Group. Pour traiter les documents contenant des tableaux, les entreprises enchaînaient souvent des appels LLM supplémentaires afin d’extraire et de reconstruire les tableaux au format JSON, ce qui était efficace mais risqué en raison des hallucinations, explique M. Shimmin, ajoutant qu’au lieu d’assembler l’OCR, le RAG et la logique d’extraction personnalisée, l’ai_parse de Databricks réduit l’ensemble du flux de travail à une seule instruction SQL déclarative.

Argumentaire de Databricks en faveur du rapport qualité-prix

Databricks affirme que sa fonction ai_parse offre un meilleur rapport qualité-prix par rapport à d’autres fonctions similaires proposées par ses concurrents, ainsi qu’aux modèles linguistiques visuels. « Le rapport qualité-prix est très important. En tant qu’entreprise, nous cherchons encore à optimiser les workflows complexes et agentifs de l’IA, notamment en termes de gestion du contexte et des ressources mémoire au fil du temps. Mais même pour les routines de base d’ingestion de données, ce type d’effort peut faire une grande différence, en particulier pour les entreprises qui doivent traiter des millions, voire des milliards de documents », a déclaré M. Shimmin. Il a toutefois averti que les entreprises devaient effectuer leurs propres tests de benchmarking et ne pas se fier uniquement aux affirmations de Databricks. Selon lui, l’argumentaire du fournisseur sur le rapport qualité-prix pourrait lui donner un avantage sur Snowflake auprès des entreprises clientes. « Sur un marché où les deux leaders ont des messages très similaires, ce type d’économies pour les charges de travail fondamentales peut constituer un argument très convaincant. »

chevron_left
chevron_right