Pour faciliter la création et le déploiement des agents IA, IBM présente le framework Cuga. Open source, il embarque plusieurs technologies pour adresser de larges besoins métiers.
Dans un papier de recherche, IBM a dévoilé un système open source nommé Cuga (computer using generalist agent) pour créer des agents IA. Destiné aux entreprises, il intègre selon les chercheurs des agents IA couplés à une approche systématique d’évaluation, d’analyse et de perfectionnement itératifs. Objectif : automatiser les tâches en s’appuyant sur de l’orchestration multi-agents, de l’intégration d’API, et de la génération de code basée sur des applications d’entreprise. « Notre vision pour Cuga est de développer un agent généraliste qui peut être adapté et configuré par les salariés pour effectuer les aspects routiniers ou complexes de leur travail de manière sûre et fiable », ont écrit des chercheurs d’IBM dans leur article.
Selon le fournisseur, Cuga apporte des gains en termes de rapidité et de performance dans les benchmarks WebArena et AppWorld où il atteint respectivement 61,7 % de taux de réussite dans l’exécution de tâches web et 48,2 % dans l’évaluation de tâches API. Un taux très élevé pour ce dernier comparatif qui évalue la capacité d’un agent à sélectionner dynamiquement les API appropriées, à gérer les variables, à raisonner sur les conditions préalables et les résultats, et à aligner sa stratégie sur des objectifs à long terme. « Notre ambition est d’être les pionniers dans le développement de systèmes d’agents qui vont au-delà de la simple exécution de tâches et englobent d’autres dimensions, telles que la confidentialité, la sécurité, la fiabilité et la rentabilité des agents IA », assure big blue.
Les dessous de l’architecture de Cuga
Conçu sous licence Apache 2.0, Cuga est articulé autour de plusieurs composants : chat, planification et contrôle des taches, analyse des prompts. Ce système multi-agents est composé de sous-agents spécialisés pour le web ou pour les API. Celui pour le web est chargé de naviguer et d’interagir avec les environnements basés sur un navigateur. Par ailleurs, il utilise Playwright pour contrôler le navigateur et construit son espace d’observation à partir de captures d’écran et de l’arborescence d’accessibilité. Celui dédié aux API interagit avec des interfaces d’application structurées et recourt à un catalogue d’API pour intégrer et gérer de manière dynamique les applications disponibles en chargeant leurs schémas OpenAPI. Ce catalogue donne la capacité à l’agent d’effectuer des requêtes structurées et des recherches hiérarchiques dans les API et le lien avec les applications se fait via une passerelle MCP.

Cuga comprend des sous-agents dont un est en charge du web et l’autre des API. (Crédit IBM)
Le système agentique Cuga est orchestré à l’aide de LangGraph qui gère la coordination avec état entre les agents, et de LangChain, qui fournit une interface unifiée pour interagir avec différents LLM ouverts et de pointe. Conçu pour fonctionner avec la plateforme low-code de création d’agents IA Langflow, Cuga supporte différents modèles open source comme GPT-OSS-120b et Llama-4-Maverick-17B-128E-Instruct-fp8. Malgré les efforts d’IBM, Cuga semble cependant encore présenter quelques imperfections comme le signale The Register : « Un bug récemment signalé sur GitHub, suggère que l’agent peut parfois avoir des difficultés à sortir de sa boucle d’exécution », explique notre confrère. « Si vous déployez un logiciel d’agent IA et que vous espérez automatiser sans encombre des tâches métiers en plusieurs étapes, vous devriez peut-être revoir vos attentes à la baisse. »