Les nouveaux modèles d'IA GPT-4.1 de OpenAI se concentrent sur le codage

OpenAI a lancé lundi une nouvelle famille de modèles appelée GPT-4.1. Oui, "4.1" - comme si la nomenclature de la société n'était pas déjà assez confuse.

Il y a GPT-4.1, GPT-4.1 mini et GPT-4.1 nano, tous lesquels OpenAI dit "exceller" dans le codage et le suivi des instructions. Disponibles via l'API OpenAI mais pas ChatGPT, les modèles multimodaux ont une fenêtre contextuelle de 1 million de jetons, ce qui signifie qu'ils peuvent prendre environ 750 000 mots en une seule fois (plus long que "Guerre et Paix").

GPT-4.1 arrive alors que des rivaux de OpenAI tels que Google et Anthropic intensifient leurs efforts pour construire des modèles de programmation sophistiqués. Le Gemini 2.5 Pro récemment publié par Google, qui a également une fenêtre contextuelle de 1 million de jetons, se classe très bien dans les benchmarks de codage populaires. Il en va de même pour Claude 3.7 Sonnet d'Anthropic et V3 amélioré de la start-up chinoise d'IA DeepSeek.

Le but de nombreux géants de la tech, y compris OpenAI, est de former des modèles d'IA capables d'accomplir des tâches d'ingénierie logicielle complexes. L'ambition de OpenAI est de créer un "ingénieur logiciel agissant", comme l'a déclaré la directrice financière Sarah Friar lors d'un sommet technologique à Londres le mois dernier. La société affirme que ses futurs modèles seront capables de programmer des applications entières de bout en bout, gérant des aspects tels que l'assurance qualité, les tests de bogues et la rédaction de documentation.

GPT-4.1 est un pas dans cette direction.

"Nous avons optimisé GPT-4.1 pour une utilisation en conditions réelles basée sur des retours directs pour améliorer des domaines qui sont les plus importants pour les développeurs : codage frontend, faire moins de modifications superflues, suivre les formats de manière fiable, respecter la structure et l'ordonnancement des réponses, utilisation cohérente des outils, et plus encore", a déclaré un porte-parole de OpenAI à TechCrunch par e-mail. "Ces améliorations permettent aux développeurs de construire des agents considérablement meilleurs pour des tâches d'ingénierie logicielle en conditions réelles."

OpenAI affirme que le modèle complet GPT-4.1 surpasse ses modèles GPT-4o et GPT-4o mini sur les benchmarks de codage, notamment SWE-bench. GPT-4.1 mini et nano sont considérés comme plus efficaces et plus rapides au détriment de la précision, OpenAI affirmant que GPT-4.1 nano est son modèle le plus rapide - et le moins cher - à ce jour.

GPT-4.1 coûte 2 $ par million de jetons d'entrée et 8 $ par million de jetons de sortie. GPT-4.1 mini est à 0,40 $ par million de jetons d'entrée et 1,60 $ par million de jetons de sortie, et GPT-4.1 nano est à 0,10 $ par million de jetons d'entrée et 0,40 $ par million de jetons de sortie.

De selon les tests internes de OpenAI, GPT-4.1, qui peut générer plus de jetons à la fois que GPT-4o (32 768 contre 16 384), a obtenu entre 52 % et 54,6 % sur SWE-bench Verified, un sous-ensemble validé par des humains du SWE-bench. (OpenAI a noté dans un article de blog que certaines solutions aux problèmes vérifiés par SWE-bench ne pouvaient pas fonctionner sur son infrastructure, d'où la gamme de scores.) Ces chiffres sont légèrement inférieurs aux scores rapportés par Google et Anthropic pour Gemini 2.5 Pro (63,8 %) et Claude 3.7 Sonnet (62,3 %), respectivement, sur le même benchmark.

Lors d'une évaluation séparée, OpenAI a sondé GPT-4.1 en utilisant Video-MME, conçu pour mesurer la capacité d'un modèle à "comprendre" le contenu des vidéos. GPT-4.1 a atteint un taux de précision record de 72 % dans la catégorie "longue, sans sous-titres" des vidéos, affirme OpenAI.

Alors que GPT-4.1 obtient des scores raisonnablement bons sur les benchmarks et a une "coupure de connaissances" plus récente, lui donnant un meilleur cadre de référence pour les événements actuels (jusqu'en juin 2024), il est important de garder à l'esprit que même certains des meilleurs modèles d'aujourd'hui ont du mal avec des tâches qui ne poseraient pas de problème à des experts. Par exemple, de nombreuses études ont montré que les modèles générant du code ont souvent du mal à corriger, voire introduisent, des vulnérabilités de sécurité et des bogues.

OpenAI reconnaît également que GPT-4.1 devient moins fiable (c'est-à-dire plus susceptible de commettre des erreurs) plus il a de jetons d'entrée à traiter. Lors de l'un des propres tests de la société, OpenAI-MRCR, la précision du modèle est passée d'environ 84 % avec 8 000 jetons à 50 % avec 1 million de jetons. GPT-4.1 avait également tendance à être plus "littéral" que GPT-4o, dit la société, nécessitant parfois des instructions plus spécifiques et explicites.