De nos jours, l'intelligence artificielle peut générer des images photoréalistes, écrire des romans, faire vos devoirs et même prédire les structures protéiques. De nouvelles recherches, cependant, révèlent qu'elle échoue souvent à une tâche très fondamentale: l'heure révélatrice.
Des chercheurs de l'Université d'Édimbourg ont testé la capacité de sept modèles de langue multimodaux bien connus – le type d'IA qui peut interpréter et générer divers types de médias – pour répondre aux questions liées au temps basées sur différentes images d'horloges ou de calendriers. Leur étude, à paraître en avril et actuellement hébergée sur le serveur Preprint Arxiv, démontre que le LLMS a des difficultés avec ces tâches de base.
« La capacité d'interpréter et de raisonner sur le temps des entrées visuelles est essentielle pour de nombreuses applications du monde réel, passant de la planification des événements aux systèmes autonomes », ont écrit les chercheurs dans l'étude. «Malgré les progrès des modèles multimodaux de grande langue (MLLM), la plupart des travaux se sont concentrés sur la détection d'objets, le sous-titrage de l'image ou la compréhension de la scène, laissant l'inférence temporelle sous-explorée.»
L'équipe a testé le GPT-4O d'OpenAI et GPT-O1; Gemini 2.0 de Google Deepmind; Claude 3.5 d'Anthropic Sonnet; META'S LLAMA 3.2-11B-VISION-INSTRUCT; Instruct de Qwen2-Vl7b d'alibaba; et MINICPM-V-2.6 de ModelBest. Ils ont nourri les modèles différentes images des horloges analogiques – les gardiens de temps avec des chiffres romains, différentes couleurs de cadran et même certains manquant la main de seconde – ainsi que 10 ans d'images calendaires.
Pour les images d'horloge, les chercheurs ont demandé aux LLMS, wLe temps du chapeau est indiqué sur l'horloge dans l'image donnée? Pour les images du calendrier, les chercheurs ont posé des questions simples telles que, wLe jour du chapeau de la semaine est le jour du Nouvel An? et des requêtes plus difficiles, y compris wLe chapeau est le 153e jour de l'année?
«La lecture de l'horloge analogique et la compréhension du calendrier impliquent des étapes cognitives complexes: ils exigent une reconnaissance visuelle à grains fins (par exemple, la position de la main d'horloge, la disposition des cellules de jour) et un raisonnement numérique non trivial (par exemple, calcul des offensets de jour)», ont expliqué les chercheurs.
Dans l'ensemble, les systèmes d'IA ne fonctionnaient pas bien. Ils lisent correctement l'heure sur les horloges analogiques moins de 25% du temps. Ils ont lutté avec des horloges portant des chiffres romains et des mains stylisées autant qu'elles l'ont fait avec des horloges dépourvues d'une main, ce qui indique que le problème peut découler de la détection des mains et de l'interprétation des angles sur le visage de l'horloge, selon les chercheurs.
Le GEMINI-2.0 de Google a obtenu le score le plus élevé sur la tâche d'horloge de l'équipe, tandis que GPT-O1 était exact sur la tâche du calendrier 80% du temps – un résultat bien meilleur que ses concurrents. Mais même alors, le MLLM le plus réussi de la tâche du calendrier a encore fait des erreurs d'environ 20% du temps.
«La plupart des gens peuvent dire l'heure et utiliser des calendriers dès le plus jeune âge. Nos résultats mettent en évidence une lacune importante dans la capacité de l'IA à réaliser ce qui est des compétences très basiques pour les gens », a déclaré Rohit Saxena, co-auteur de l'étude et doctorat à la School of Informatics de l'Université d'Édimbourg, dans un communiqué universitaire. «Ces déficits doivent être traités si les systèmes d'IA doivent être intégrés avec succès dans des applications dans le monde et les technologies d'assistance et d'assistance.»
Ainsi, même si l'IA peut être en mesure de terminer vos devoirs, ne comptez pas sur celle-ci en collant à des délais.



GIPHY App Key not set. Please check settings