OpenAI lance une version allégée de son générateur automatisé de textes GPT-2

L’initiative à but non lucratif OpenAI lancée par Elon Musk et Sam Altman a annoncé la disponibilité d’une version allégée de son système d’édition automatisée de textes GPT-2. Des risques liés à un usage malveillant de son modèle le plus élaboré est mis en avant pour justifier l’impasse sur l’open source.

Le modèle IA d’édition automatisée de textes GPT-2 compte 1,5 milliard de paramètres contre 117 millions pour la version allégée. (crédit : D.R.)

Créée fin 2015, OpenAI est une initiative de recherche en intelligence artificielle à but non lucratif. Ayant à sa tête plusieurs pontes du domaine dont Ilya Sutskever (co-fondateur de DNNresearch), et Greg Brockman (ex CTO de Strope), cette structure a été co-fondée par Elon Musk (Tesla, Space X…) et le fonds d’amorçage pour start-ups en x-learning (machine, deep…) Y Combinator présidée par Sam Altman. Comptant à ce jour une soixantaine de chercheurs et bénéficiant par ailleurs des soutiens financiers de Microsoft, AWS et Infosys, OpenAI a développé GPT-2, un modèle IA capable de générer automatiquement du texte, à partir d’une simple phrase, qui se révèle être particulièrement puissant.

« GPT-2 est un modèle étendu de transformation de langage avec 1,5 milliard de paramètres, formé sur un jeu de données de 8 millions de pages Web », explique OpenAI. Craignant de voir son modèle IA de génération automatisée de texte être utilisé à mauvais escient – par exemple pour éditer de la fake news au kilomètre – l’organisation a indiqué qu’il ne proposerait pas son moteur en open source.

Des discussions dans 6 mois

« En raison des préoccupations concernant l’utilisation de modèles de langage volumineux pour générer un langage trompeur, biaisé ou abusif, nous ne publions qu’une version beaucoup plus simple de GPT-2 avec un code d’échantillonnage. Nous ne publions pas le jeu de données, le code de formation ou les modèles GPT-2 », a précisé OpenAI. Cette version allégée a été mis en ligne sur GitHub reposant « seulement » sur 117 millions de paramètres. « Nous sommes conscients que certains chercheurs ont la capacité technique de reproduire et d’ouvrir en open source nos résultats. Nous pensons que notre stratégie de publication limite le set initial auprès des organisations qui peuvent choisir de le faire, et donne à la communauté IA plus de temps pour discuter des implications de tels systèmes », indique également l’OpenAI.