
Plus tôt cette semaine, Meta s'est retrouvé dans l'eau chaude pour avoir utilisé une version expérimentale et non publiée de son modèle Llama 4 Maverick pour obtenir un score élevé sur un benchmark participatif, LM Arena. L'incident a poussé les mainteneurs de LM Arena à présenter des excuses, à modifier leurs politiques et à noter le Maverick vanille non modifié.
Il s'avère que ce n'est pas très compétitif.
Le Maverick non modifié, “Llama-4-Maverick-17B-128E-Instruct”, était classé en dessous de modèles tels que le GPT-4o d'OpenAI, le Claude 3.5 Sonnet d'Anthropic et le Gemini 1.5 Pro de Google à partir de vendredi. Beaucoup de ces modèles ont plusieurs mois.
La version de sortie de Llama 4 a été ajoutée à LMArena après avoir découvert qu'ils avaient triché, mais vous ne l'avez probablement pas vue car vous devez descendre jusqu'à la 32e place où elle se classe pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) 11 avril 2025
Pourquoi cette mauvaise performance? Le Maverick expérimental de Meta, Llama-4-Maverick-03-26-Experimental, a été «optimisé pour la conversation», comme l'a expliqué la société dans un tableau publié samedi dernier. Ces optimisations ont visiblement bien fonctionné sur LM Arena, où des évaluateurs humains comparent les sorties des modèles et choisissent celle qu'ils préfèrent.
Comme nous l'avons déjà mentionné, pour diverses raisons, LM Arena n'a jamais été la mesure la plus fiable de la performance d'un modèle d'IA. Néanmoins, adapter un modèle à un benchmark, en plus d'être trompeur, rend difficile pour les développeurs de prédire exactement la performance du modèle dans différents contextes.
Dans un communiqué, un porte-parole de Meta a déclaré à TechCrunch que Meta expérimente avec "tous types de variantes personnalisées".
“'Llama-4-Maverick-03-26-Experimental' est une version optimisée pour la discussion avec laquelle nous avons expérimenté et qui fonctionne bien sur LM Arena”, a déclaré le porte-parole. “Nous avons maintenant publié notre version open source et verrons comment les développeurs adapteront Llama 4 à leurs propres cas d'utilisation. Nous sommes impatients de voir ce qu'ils vont construire et attendons avec intérêt leurs retours continus.”