Le modèle d'IA vanille de Meta Maverick se classe en dessous de ses rivaux sur un benchmark de chat populaire

Informations Intelligentes

Thursday, April 17 2025

Plus tôt cette semaine, Meta s'est retrouvé dans l'eau chaude pour avoir utilisé une version expérimentale et non publiée de son modèle Llama 4 Maverick pour obtenir un score élevé sur un benchmark participatif, LM Arena. L'incident a poussé les mainteneurs de LM Arena à présenter des excuses, à modifier leurs politiques et à noter le Maverick vanille non modifié.

Il s'avère que ce n'est pas très compétitif.

Le Maverick non modifié, “Llama-4-Maverick-17B-128E-Instruct”, était classé en dessous de modèles tels que le GPT-4o d'OpenAI, le Claude 3.5 Sonnet d'Anthropic et le Gemini 1.5 Pro de Google à partir de vendredi. Beaucoup de ces modèles ont plusieurs mois.

La version de sortie de Llama 4 a été ajoutée à LMArena après avoir découvert qu'ils avaient triché, mais vous ne l'avez probablement pas vue car vous devez descendre jusqu'à la 32e place où elle se classe pic.twitter.com/A0Bxkdx4LX

— ρ:ɡeσn (@pigeon__s) 11 avril 2025

Pourquoi cette mauvaise performance? Le Maverick expérimental de Meta, Llama-4-Maverick-03-26-Experimental, a été «optimisé pour la conversation», comme l'a expliqué la société dans un tableau publié samedi dernier. Ces optimisations ont visiblement bien fonctionné sur LM Arena, où des évaluateurs humains comparent les sorties des modèles et choisissent celle qu'ils préfèrent.

Comme nous l'avons déjà mentionné, pour diverses raisons, LM Arena n'a jamais été la mesure la plus fiable de la performance d'un modèle d'IA. Néanmoins, adapter un modèle à un benchmark, en plus d'être trompeur, rend difficile pour les développeurs de prédire exactement la performance du modèle dans différents contextes.

Dans un communiqué, un porte-parole de Meta a déclaré à TechCrunch que Meta expérimente avec "tous types de variantes personnalisées".

“'Llama-4-Maverick-03-26-Experimental' est une version optimisée pour la discussion avec laquelle nous avons expérimenté et qui fonctionne bien sur LM Arena”, a déclaré le porte-parole. “Nous avons maintenant publié notre version open source et verrons comment les développeurs adapteront Llama 4 à leurs propres cas d'utilisation. Nous sommes impatients de voir ce qu'ils vont construire et attendons avec intérêt leurs retours continus.”

Informations Intelligentes

Le modèle d'IA vanille de Meta Maverick se classe en dessous de ses rivaux sur un benchmark de chat populaire

Recent Posts

L'Espagne bat la Colombie 4-2 aux tirs au but pour atteindre les demi-finales du football féminin aux Jeux olympiques

Meta commence à accepter les inscriptions pour les Notes Communautaires sur Facebook, Instagram et Threads

Meadows entraîne deux points, Montero ferme les Mariners dans la victoire 4-2 des Tigers

Comment Harris et Trump diffèrent sur la politique en matière d'intelligence artificielle

Paris sportifs : Panthers et Avalanche favoris à égalité pour remporter le titre de la Coupe Stanley