Face aux coûts d’inférence, OpenAI teste les TPU de Google Cloud

Selon la presse américaine, OpenAI expérimente les Tensor Processing Units (TPU) de Google Cloud. Si le spécialiste de l’IA n’envisage pas pour l’instant un déploiement à grande échelle de cette technologie, ce test répond à la problématique de l’augmentation des coûts d’inférence et la dépendance à la Nvidia.

Il y a quelques jours, The Information expliquait que Google Cloud avait convaincu OpenAI d’utiliser ses TPU (tensor processing units) pour ses charges de travail IA. Cette rumeur a cependant été corrigée par l’éditeur auprès de Reuters indiquant que le laboratoire d’IA d’OpenAI effectuait des tests préliminaires avec certains TPU de Google. Tout en ajoutant qu’il n’existait pas de plan pour un déploiement à grande échelle de cette technologie. Ces tests interviennent alors qu’OpenAI continue de développer ses modèles et ses services, ce qui suscite des interrogations sur la manière dont elle envisage de gérer les exigences financières et de calcul croissantes liées à l’exploitation de grands modèles de langage (LLM). D’autant plus que la demande, l’indisponibilité et le coût des GPU Nvidia sont à leur apogée.

Selon les analystes, l’augmentation des coûts d’inférence est au cœur de cette problématique. « L’accélération du passage de la formation à l’inférence ou à l’ajustement des charges de travail où le coût par requête domine l’économie opérationnelle catalyse l’adoption massive de puces IA alternatives, autres que les GPU de Nvidia », a déclaré Charlie Dai, vice-président et analyste principal chez Forrester. « Les tests d’OpenAI montrent que les fournisseurs de LLM s’intéressent de plus en plus au matériel spécialisé pour freiner la spirale des coûts d’inférence et améliorer l’efficacité à mesure que l’utilisation des modèles augmente », a-t-il ajouté. Barclays prévoit que les dépenses d’investissement liées aux puces pour l’inférence de l’IA grand public devraient approcher les 120 Md$ en 2026 et dépasser les 1100 Md$ en 2028. La banque observe également que les fournisseurs de LLM, tels qu’OpenAI, sont contraints de se tourner vers des puces personnalisées afin de réduire le coût de l’inférence et devenir rentables.

Un intérêt pour les TPU Ironwood ?

« L’inférence consomme plus de 50 % du budget de traitement d’OpenAI, et les unités de traitement de tenseur, en particulier les plus anciennes, offrent un coût par inférence nettement inférieur à celui des GPU Nvidia », a rappelé Charlie Dai, expliquant l’importance des TPU pour OpenAI. « Même si les anciens TPU n’offrent pas les performances maximales des récentes puces de Nvidia, leur architecture dédiée minimise le gaspillage d’énergie et les ressources inutilisées, ce qui les rend plus rentables à grande échelle », a-t-il ajouté. Alexander Harrowell, analyste principal chez Omdia, est d’accord avec lui, « de nombreux praticiens de l’IA disent qu’avec les TPU, ils obtiennent un meilleur ratio d’opérations en virgule flottante par seconde (FLOPS) – une unité de mesure des performances de calcul – utilisées pour les performances maximales théoriques qu’avec n’importe quelle autre solution ». L’analyste a également souligné qu’en général et contrairement à la croyance populaire, les puces IA ont tendance à rester sur le marché plus longtemps que prévu malgré le rythme rapide de l’évolution. « Les A100, les A10 et même les T4 se vendent encore. Google lui-même propose toujours le TPU v2 qu’il commercialise probablement à des clients, et il est plus ancien que le Transformer original », glisse-t-il.

Il existe actuellement cinq générations de TPU disponibles à la vente via la Google Cloud Platform : les v2, v3, v4, v5 et la v6, appelée Trillium. Parmi celles-ci, la v5 comporte deux sous-variantes, la v5p pour les performances et la v5e pour l’efficacité. La documentation de Google indique la présence de la seule v6e pour Trillium. Le fournisseur de services cloud disposait également d’une variante d’efficacité de la v4, appelée v4i, qui n’a jamais été proposée en dehors de Google. En avril, le fournisseur a présenté en avant-première Ironwood, son TPU de dernière génération, qui, selon les analystes, offre un rapport prix/performance encore meilleur que l’unité Trillium précédente, ainsi que des puces de Nvidia, AMD, AWS et Microsoft. « OpenAI a peut-être testé une ou deux unités Ironwood, mais il est peu probable qu’une commande en gros de la puce soit disponible pour le moment », a avancé Alexander Harrowell.

Diversifier ses fournisseurs de puces 

Charlie Dai de Forrester a par ailleurs souligné que si OpenAI ajoute les TPU de Google, elle diversifiera ses fournisseurs, ce qui lui permettra d’éviter les goulets d’étranglement du fait, par exemple, à des pénuries de GPU et d’avoir un effet de levier dans les négociations tarifaires. La liste actuelle des fournisseurs de puces d’OpenAI comprend des entreprises comme Microsoft, Oracle et CoreWeave.

La société a également la possibilité d’adopter du silicium personnalisé, comme AWS Tranium et Microsoft Maia, tous deux destinés aux charges de travail d’inférence ou à l’accélération de l’IA en général. Contrairement à d’autres analystes, l’expert indépendant Thomas Dinsmore pense qu’OpenAI pourrait être en train de négocier un accord spécial avec Google pour utiliser les TPU à des fins internes, pour des tests, la formation des employés et les applications en cache. Un cadre limité, car il ne faut pas oublier que la pile logicielle d’OpenAI a été optimisée pour fonctionner sur les GPU Nvidia. Adapter cette brique pour tirer pleinement parti de l’architecture TPU de Google nécessiterait du temps et des ressources supplémentaires.

chevron_left
chevron_right