Les gens utilisent Super Mario pour comparer l'IA maintenant

Pensait que Pokémon était une référence difficile pour l'IA? Un groupe de chercheurs soutient que Super Mario Bros. est encore plus difficile.

Hao AI Lab, une organisation de recherche à l'Université de Californie San Diego, a lancé vendredi l'IA dans les jeux de Super Mario Bros. en direct. Claude 3.7 d'Anthropic a joué le meilleur, suivi de Claude 3.5. GEMINI 1.5 Pro de Google et GPT-4O d'OpenAI ont eu du mal.

Ce n'était pas tout à fait la même version de Super Mario Bros. que la version originale de 1985, pour être claire. Le jeu a fonctionné dans un émulateur et intégré à un cadre, GamingAgent, pour donner le contrôle de l'AIS sur Mario.

Crédits d'image:Laboratoire hao

GamingAgent, que Hao a développé en interne, a nourri les instructions de base de l'IA, comme: «Si un obstacle ou un ennemi est proche, déplacez / sautez à gauche pour esquiver» et des captures d'écran dans le jeu. L'IA a ensuite généré des entrées sous forme de code Python pour contrôler Mario.

Pourtant, Hao dit que le jeu a forcé chaque modèle à «apprendre» à planifier des manœuvres complexes et à développer des stratégies de gameplay. Fait intéressant, le laboratoire a constaté que des modèles soi-disant raisonnement comme O1 d'Openai, qui «pensent» à travers des problèmes étape par étape pour arriver à des solutions, ont obtenu des résultats pires que les modèles «non-saisonnants», bien qu'ils soient généralement plus forts sur la plupart des repères.

Selon les chercheurs, l'une des principales raisons pour lesquelles les modèles de raisonnement ont du mal à jouer à des jeux en temps réel comme ils prennent un certain temps – quelques secondes – pour décider des actions, selon les chercheurs. Dans Super Mario Bros., le timing est tout. Une seconde peut faire la différence entre un saut dégagé en toute sécurité et un chant à la mort.

Les jeux sont utilisés pour comparer l'IA depuis des décennies. Mais certains experts ont remis en question la sagesse de lier les liens entre les compétences de jeu de l'IA et les progrès technologiques. Contrairement au monde réel, les jeux ont tendance à être abstraits et relativement simples, et ils fournissent une quantité théoriquement infinie de données pour former l'IA.

Les récentes références de jeu flashy soulignent ce que Andrej Karpathy, chercheur et membre fondateur d'Openai, a appelé une «crise d'évaluation».

« Je ne sais pas vraiment quelles mesures (IA) à regarder en ce moment », a-t-il écrit dans un article sur X. « TLDR Ma réaction est que je ne sais pas vraiment à quel point ces modèles sont bons en ce moment. »

Au moins, nous pouvons regarder l'IA jouer à Mario.

Les gens utilisent Super Mario pour comparer l'IA maintenant

Le Charles de Gaulle en mer d’Arabie : la France se positionne pour le détroit d’Ormuz

Somalie : 50 combattants al-Shabaab tués près de Baidoa

Drame aux Maldives : cinq plongeurs italiens morts dans une grotte, la sixième rescapée par un coup du sort

Guerre en Ukraine : 205 prisonniers échangés, un signal ou une illusion ?

Les Etats-Unis rejettent la proposition de paix en 14 points de l’Iran

Ebola en RDC : une épidémie qui ressurgit à l’est, aux portes de l’Ouganda

Hantavirus sur un bateau de croisière : on en sait plus sur les décès et la contamination des passagers

Guerre en Iran et au Liban : quel est le coût du conflit au Moyen-Orient pour la France ?

Manifestation du 1er mai : des risques de débordement ? Les autorités ont évalué les risques

Cette technique de détective privé permet de passer inaperçu : « Plus c’est gros, plus ça passe »

Juvisy-sur-Orge : un bus tombe dans la Seine, quatre personnes à bord et une interrogation

Disparition de Manon Relandeau : un SMS au cœur des soupçons

Laisser un commentaireAnnuler la réponse

Les meilleurs jouets Star Wars, Marvel et Transformers que nous avons vus au New York Toy Fair

TypeScript 5.8 atteint la disponibilité générale