Un dirigeant de Meta dément les rumeurs d’optimisation artificielle des modèles Llama 4 sur les benchmarks

Ahmad al-Dahle, vice-président chargé de l’IA générative chez Meta, a fermement contesté lundi les allégations selon lesquelles la société aurait entraîné ses derniers modèles d’intelligence artificielle, Llama 4 Maverick et Llama 4 Scout, sur des jeux de données spécifiques pour masquer leurs lacunes. Dans un post publié sur X, il a qualifié ces rumeurs de « tout simplement fausses », en réponse à des spéculations circulant depuis le week-end sur les réseaux sociaux.

À l’origine de cette polémique, un article partagé sur un réseau social chinois par un utilisateur anonyme, affirmant avoir quitté Meta pour protester contre ses pratiques d’évaluation des modèles. Selon cette thèse, Meta aurait utilisé des benchmarks (des ensembles de données tests) lors de l’entraînement de ses IA, une méthode risquant de fausser leurs performances réelles en optimisant artificiellement leurs scores.

Ces accusations ont été renforcées par des observations de chercheurs sur X, pointant des écarts notables entre le comportement du modèle Maverick accessible au public et celui hébergé sur la plateforme LM Arena. Par ailleurs, des rapports sur des performances inégales des deux modèles sur certaines tâches, ainsi que le recours à une version expérimentale de Maverick pour améliorer ses résultats sur LM Arena, ont alimenté les doutes.

Interrogé sur ces disparités, Ahmad al-Dahle a reconnu une « qualité variable » des modèles selon les plateformes cloud qui les hébergent. « Dès la publication des modèles, nous anticipions des variations entre les implémentations publiques, a-t-il expliqué. Nous collaborons avec nos partenaires pour résoudre ces bugs et harmoniser les performances. »

Meta maintient ainsi que ses modèles ont été diffusés conformément à ses standards, tout en promettant des ajustements continus. Reste à savoir si ces clarifications suffiront à apaiser les suspicions autour de l’évaluation transparente de l’IA…

Un dirigeant de Meta dément les rumeurs d’optimisation artificielle des modèles Llama 4 sur les benchmarks

Le Charles de Gaulle en mer d’Arabie : la France se positionne pour le détroit d’Ormuz

Somalie : 50 combattants al-Shabaab tués près de Baidoa

Drame aux Maldives : cinq plongeurs italiens morts dans une grotte, la sixième rescapée par un coup du sort

Guerre en Ukraine : 205 prisonniers échangés, un signal ou une illusion ?

Les Etats-Unis rejettent la proposition de paix en 14 points de l’Iran

Ebola en RDC : une épidémie qui ressurgit à l’est, aux portes de l’Ouganda

Hantavirus sur un bateau de croisière : on en sait plus sur les décès et la contamination des passagers

Guerre en Iran et au Liban : quel est le coût du conflit au Moyen-Orient pour la France ?

Manifestation du 1er mai : des risques de débordement ? Les autorités ont évalué les risques

Cette technique de détective privé permet de passer inaperçu : « Plus c’est gros, plus ça passe »

Juvisy-sur-Orge : un bus tombe dans la Seine, quatre personnes à bord et une interrogation

Disparition de Manon Relandeau : un SMS au cœur des soupçons

Laisser un commentaireAnnuler la réponse

La France renforce ses liens avec l’Égypte tandis que Macron exclut tout rôle du Hamas à Gaza

Cloudflare dévoile de nouveaux outils dédiés au développement d’IA « agentiques »