Z.ai présente GLM-5.2 taillé pour le développement longue durée

Ce modèle chinois ouvert rivalise avec Claude Opus 4.8 et GPT-5.5 pour le codage complexe et longue durée. Sa nationalité reste néanmoins un frein pour son développement dans les entreprises, soulignent les analystes.

Sous licence MIT, le modèle IA open weight GLM-5.2 lancé par l’entreprise chinoise Z.ai est destiné aux tâches de développement de longue durée, de plusieurs heures ou de plusieurs jours. L’entreprise, qui cherche à rivaliser avec les modèles de codage propriétaires sur le coût et les performances, a indiqué que GLM-5.2 se classait juste derrière Claude Opus 4.8 d’Anthropic sur FrontierSWE, un benchmark de codage sur le long terme, avec un écart de 1 %. Z.ai a précisé que le modèle devançait également GPT-5.5 d’OpenAI avec le même écart. Elle a encore indiqué que son modèle IA prenait en charge une fenêtre de contexte d’un million de tokens avec jusqu’à 131 072 tokens de sortie, ce qui le rend adapté aux workflows de codage agentiques qui nécessitent un raisonnement sur de vastes bases de code. Il affiche un poids de 744 milliards de paramètres dont 40 milliards sont actifs.

L’entreprise met aussi en avant des arguments d’efficacité. Elle a notamment affirmé que le modèle utilisait une technique appelée « IndexShare », qui réduit de 2,9 fois la charge de calcul par token pour une longueur de contexte d’un million de token. Elle a ajouté que les modifications apportées à la couche de prédiction multi-tokens du modèle ont augmenté la longueur d’acceptation pour le décodage spéculatif jusqu’à 20 %. Ces modifications visent à résoudre un problème concret pour les développeurs : les agents de codage à contexte étendu peuvent s’avérer coûteux à exécuter lorsqu’ils doivent traiter de vastes dépôts de code. Z.ai mise aussi sur un tarif attractif via son API pour séduire les entreprises : 1,40 $ HT par million de tokens en entrée, 4,40 $ HT en sortie (contre 5 $ HT par million de tokens en entrée et 30 $ en sortie pour GTP-5.5).

Intérêt pour les entreprises

L’attrait principal du modèle GLM-5.2 réside dans le fait qu’il allie des capacités de codage plus puissantes aux avantages financiers d’un modèle ouvert. Mais ces capacités ne suffiront pas à elles seules à en faire une alternative crédible. « Les entreprises occidentales exigeront une validation indépendante par des tests de performance, des déploiements réussis au sein d’entreprises internationales, des contrôles de sécurité et de gouvernance rigoureux, ainsi que des engagements de support à long terme », a déclaré Pareekh Jain, CEO de Pareekh Consulting. Selon lui, le moyen le plus rapide d’asseoir sa crédibilité auprès des entreprises serait de s’appuyer sur un grand fournisseur de cloud comme AWS. Les clients pourraient ainsi utiliser le modèle selon des conditions d’entreprise standard, avec des engagements de niveau de service et des certifications de conformité.

Tulika Sheel, vice-présidente senior chez Kadence International, a indiqué que le modèle GLM-5.2 devrait également prouver qu’il peut fonctionner comme un produit d’entreprise stable. « Des succès avérés dans des déploiements concrets et une gouvernance transparente seront tout aussi importants que les scores aux tests de performance », a estimé Mme Sheel. Les affirmations relatives aux performances et aux coûts devront aussi tenir la route face aux modèles établis. « Les dirigeants d’entreprise prennent généralement en compte deux facteurs majeurs lorsqu’ils évaluent de nouveaux modèles », a rappelé Lian Jye Su, analyste en chef chez Omdia. « D’abord, ils examinent les performances globales par rapport à la concurrence, domaine dans lequel le GLM-5.2 affiche de bons résultats dans le codage agentique de long terme et d’ingénierie logicielle. Ensuite, ils s’intéressent au coût de mise en œuvre. En tant que modèle open source, le GLM-5.2 présente des avantages de coûts évidents. » M. Su pense que ce modèle pourrait intéresser les équipes d’ingénieurs qui doivent maîtriser les coûts liés à l’IA. Il pourrait également attirer les défenseurs de l’open source et les entreprises ayant des activités importantes dans la région Asie-Pacifique.

Cependant, ces affirmations doivent encore faire l’objet d’une validation plus large, notamment en ce qui concerne le contrôle des « hallucinations » et la cohérence lors de tâches de longue durée. Il s’agit là d’enjeux cruciaux pour les entreprises qui envisagent d’utiliser des agents de codage basés sur l’IA, lesquels pourraient devoir intervenir sur de vastes bases de code et dans le cadre de workflows d’ingénierie logicielle comportant plusieurs étapes. M. Jain estime que la fenêtre de contexte d’un million de tokens pourrait s’avérer utile pour l’analyse de bases de code volumineuses. Elle pourrait également faciliter les projets de modernisation de systèmes hérités et la gestion de documentations techniques complexes. Il ajoute que la capacité à traiter des contextes longs pourrait par ailleurs s’avérer utile pour les journaux d’audit ou les contrats juridiques, où le fractionnement du contenu en segments plus petits peut générer des erreurs au niveau des limites entre les documents. Cependant, pour les tâches de codage quotidiennes, l’efficacité des systèmes de recherche pourrait primer sur les fenêtres de contexte très étendues, ce qui rendrait certains de ces avantages plus limités dans la pratique.

Des risques liés à la gouvernance

La question de la gouvernance dépend en grande partie de l’endroit où le modèle est exécuté. Selon Mme Sheel, les entreprises devraient évaluer le modèle GLM-5.2 comme elles le feraient pour n’importe quel partenaire technologique stratégique, plutôt que comme un modèle autonome. Cela implique d’examiner où les données sont stockées et de vérifier si le modèle peut être utilisé dans des environnements contrôlés par les clients. Pour M. Jain, ce choix de déploiement est au cœur de l’évaluation des risques. Le modèle GLM-5.2 étant disponible sous licence MIT, les entreprises peuvent télécharger les poids et les exécuter sur leur propre infrastructure, ce qui signifie qu’elles n’ont pas besoin d’envoyer des données sensibles à Z.ai. « Par contre, le risque s’inverse complètement si l’on utilise plutôt l’API hébergée par Z.ai », a mis en garde l’analyste.

Celui-ci explique que les règles chinoises en matière de sécurité nationale pourraient obliger les entreprises nationales à se conformer aux demandes du gouvernement, ce qui rendrait l’utilisation hébergée difficile pour les secteurs réglementés ou les charges de travail impliquant des données sensibles. M. Su a précisé que le problème ne se limitait pas aux fournisseurs chinois. Les récentes restrictions affectant l’accès à certains modèles d’Anthropic ont également mis en évidence le risque pour les entreprises d’avoir un contrôle limité sur la disponibilité des services IA proposés par des fournisseurs étrangers. « Le choix de solutions proposées par des fournisseurs d’IA américains et chinois expose effectivement les entreprises occidentales non américaines à un risque supplémentaire : celui de n’avoir aucun contrôle sur la disponibilité et le temps de fonctionnement de ces modèles », a souligné Lian Jye Sue.