Chaque dimanche, l'hôte de NPR Will Shortz, le gourou des mots croisés du New York Times, arrive à interroger des milliers d'auditeurs dans un segment de longue date appelé The Sunday Puzzle. Tout en étant écrit pour être résoluble sans aussi Beaucoup d'avant-renau, les braineurs sont généralement difficiles même pour les concurrents qualifiés.
C'est pourquoi certains experts pensent qu'ils sont un moyen prometteur de tester les limites des capacités de résolution de problèmes de l'IA.
Dans une étude récente, une équipe de chercheurs originaire du Wellesley College, du Oberlin College, de l'Université du Texas d'Austin, de l'Université du Nord-Est, de l'Université Charles et de Startup Cursor a créé une référence AI utilisant des énigmes des épisodes de puzzle du dimanche. L'équipe affirme que leur test a révélé des idées surprenantes, comme ces modèles de raisonnement – O1 d'Openai, entre autres – «abandonnent parfois» et fournissent des réponses qu'ils connaissent ne sont pas corrects.
«Nous voulions développer une référence avec des problèmes que les humains peuvent comprendre avec uniquement des connaissances générales», a déclaré à TechCrunch, membre du corps professoral en informatique, Arjun Guha, membre du corps professoral en informatique et l'un des co-auteurs de l'étude.
L'industrie de l'IA est actuellement dans un dilemme d'analyse comparative. La plupart des tests couramment utilisés pour évaluer la sonde des modèles d'IA pour les compétences, comme la compétence sur les questions de mathématiques et de sciences au niveau du doctorat, qui ne sont pas pertinentes pour l'utilisateur moyen. Pendant ce temps, de nombreux repères – même des repères libérés relativement récemment – approchent rapidement du point de saturation.
Les avantages d'un jeu de quiz de radio public comme The Sunday Puzzle est qu'il ne teste pas les connaissances ésotériques, et les défis sont formulés de telle sorte que les modèles ne peuvent pas s'appuyer sur la «mémoire par cœur» pour les résoudre, a expliqué Guha.
« Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment difficile de faire des progrès significatifs sur un problème jusqu'à ce que vous le résolviez – c'est à ce moment-là que tout clique ensemble à la fois », a déclaré Guha. «Cela nécessite une combinaison de perspicacité et un processus d'élimination.»
Aucune référence n'est parfaite, bien sûr. Le puzzle du dimanche est uniquement centré et anglais. Et parce que les quiz sont accessibles au public, il est possible que des modèles formés sur eux puissent «tricher» dans un sens, bien que Guha dit qu'il n'en ait pas vu des preuves.
« De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient vraiment invisibles », a-t-il ajouté. «Nous avons l'intention de garder le référence frais et de suivre comment les performances du modèle changent avec le temps.»
Sur la référence des chercheurs, qui comprend environ 600 énigmes de puzzle du dimanche, des modèles de raisonnement tels que O1 et R1 de Deepseek surpassent le reste. Les modèles de raisonnement se vérifient soigneusement avant de donner des résultats, ce qui les aide à éviter certains des pièges qui trébuchent normalement sur les modèles d'IA. Le compromis est que les modèles de raisonnement prennent un peu plus de temps pour arriver à des solutions – généralement des secondes à quelques minutes de plus.
Au moins un modèle, le R1 de Deepseek, donne des solutions qu'il sait mal pour certaines des questions du puzzle du dimanche. R1 indiquera que «j'abandonne», suivi d'une réponse incorrecte choisie apparemment au hasard – un comportement auquel l'homme peut certainement se rapporter.
Les modèles font d'autres choix bizarres, comme donner une mauvaise réponse uniquement pour le rétracter immédiatement, tenter de les enlever un meilleur et d'échouer à nouveau. Ils sont également coincés pour «penser» pour toujours et donnent des explications absurdes pour des réponses, ou ils arrivent immédiatement à une bonne réponse, mais continuent à considérer des réponses alternatives sans raison évidente.
« Sur les problèmes difficiles, R1 dit littéralement que cela devient » frustré « », a déclaré Guha. «C'était drôle de voir comment un modèle émule ce qu'un humain pourrait dire. Il reste à voir comment la «frustration» dans le raisonnement peut affecter la qualité des résultats du modèle. »
Le modèle le plus performant actuel sur la référence est O1 avec un score de 59%, suivi de l'O3-Mini récemment publié sur un «effort de raisonnement» élevé (47%). (R1 a obtenu 35%.) Dans une prochaine étape, les chercheurs prévoient d'élargir leurs tests vers des modèles de raisonnement supplémentaires, qui, ils espèrent, aideront à identifier les domaines où ces modèles pourraient être améliorés.

« Vous n'avez pas besoin d'un doctorat pour être bon pour le raisonnement, il devrait donc être possible de concevoir des repères de raisonnement qui ne nécessitent pas de connaissances au niveau du doctorat », a déclaré Guha. «Une référence avec un accès plus large permet à un ensemble de chercheurs plus large de comprendre et d'analyser les résultats, ce qui peut à son tour conduit à de meilleures solutions à l'avenir. En outre, comme les modèles de pointe sont de plus en plus déployés dans des paramètres qui affectent tout le monde, nous pensons que tout le monde devrait être en mesure d'intuiner ce que ces modèles sont – et ne sont pas – capables. »



GIPHY App Key not set. Please check settings