La recherche scientifique générée par l'IA pollue l'écosystème de l'information universitaire en ligne, selon un rapport inquiétant publié dans le journal de la Harvard Kennedy School. Examen de la désinformation.
Une équipe de chercheurs a étudié la prévalence des articles de recherche contenant des preuves de texte généré artificiellement sur Google Scholar, un moteur de recherche universitaire qui facilite la recherche de recherches publiées historiquement dans une multitude de revues universitaires.
L'équipe a spécifiquement interrogé l'utilisation abusive de transformateurs génératifs pré-entraînés (ou GPT), un type de grand modèle de langage (LLM) qui inclut des logiciels désormais familiers tels que ChatGPT d'OpenAI. Ces modèles sont capables d'interpréter rapidement des entrées de texte et de générer rapidement des réponses, sous forme de figures, d'images et de longues lignes de texte.
Dans le cadre de la recherche, l’équipe a analysé un échantillon d’articles scientifiques trouvés sur Google Scholar présentant des signes d’utilisation de GPT. Les articles sélectionnés contenaient une ou deux expressions courantes utilisées par les agents conversationnels (généralement des chatbots) soutenus par les LLM. Les chercheurs ont ensuite étudié dans quelle mesure ces articles douteux étaient distribués et hébergés sur Internet.
« Le risque de ce que nous appelons le 'piratage de preuves' augmente considérablement lorsque la recherche générée par l'IA est diffusée dans les moteurs de recherche », a déclaré Björn Ekström, chercheur à l'École suédoise des bibliothèques et des sciences de l'information et co-auteur de l'article. une version de l'Université de Borås. « Cela peut avoir des conséquences tangibles, car des résultats incorrects peuvent s’infiltrer davantage dans la société et peut-être aussi dans de plus en plus de domaines. »
Selon la récente équipe, la façon dont Google Scholar extrait les recherches sur Internet n'élimine pas les articles dont les auteurs n'ont pas d'affiliation scientifique ou d'évaluation par les pairs ; le moteur extraira les prises accessoires académiques (articles d'étudiants, rapports, prépublications, etc.) ainsi que les recherches qui ont passé un examen plus minutieux.
L’équipe a découvert que les deux tiers des articles étudiés étaient au moins en partie produits grâce à une utilisation non divulguée des GPT. Parmi les articles fabriqués par GPT, les chercheurs ont découvert que 14,5 % concernaient la santé, 19,5 % l’environnement et 23 % l’informatique.
« La plupart de ces articles fabriqués par GPT ont été trouvés dans des revues et des documents de travail non indexés, mais certains cas incluaient des recherches publiées dans des revues scientifiques grand public et des actes de conférences », a écrit l'équipe.
Les chercheurs ont souligné deux risques principaux induits par cette évolution. « Premièrement, l'abondance d'études fabriquées de toutes pièces qui s'infiltrent dans tous les domaines de l'infrastructure de recherche menace de submerger le système de communication scientifique et de mettre en péril l'intégrité des archives scientifiques », a écrit le groupe. « Un deuxième risque réside dans la possibilité accrue qu'un contenu d'apparence scientifique convaincante ait en fait été créé de manière trompeuse avec des outils d'IA et soit également optimisé pour être récupéré par des moteurs de recherche universitaires accessibles au public, en particulier Google Scholar. »
Google Scholar n’étant pas une base de données académique, il est facile à utiliser pour le public lors de la recherche de littérature scientifique. C'est bien. Malheureusement, il est plus difficile pour le grand public de séparer le bon grain de l’ivraie lorsqu’il s’agit de revues réputées ; même la différence entre une recherche évaluée par des pairs et un document de travail peut prêter à confusion. En outre, le texte généré par l’IA a été trouvé dans certains ouvrages évalués par des pairs ainsi que dans des articles moins examinés, ce qui indique que le travail fabriqué par GPT brouille les pistes dans l’ensemble du système d’information universitaire en ligne, et pas seulement dans le travail qui existe en dehors de la plupart des canaux officiels.
« Si nous ne pouvons pas être sûrs que les recherches que nous lisons sont authentiques, nous risquons de prendre des décisions basées sur des informations incorrectes », a déclaré Jutta Haider, co-auteur de l'étude et également chercheuse à l'École suédoise des bibliothèques et des sciences de l'information, dans le même communiqué. « Mais autant il s’agit d’une question de mauvaise conduite scientifique, autant c’est une question d’éducation aux médias et à l’information. »
Ces dernières années, les éditeurs n’ont pas réussi à filtrer une poignée d’articles scientifiques qui étaient en réalité totalement absurdes. En 2021, Springer Nature a été contraint de retirer plus de 40 articles dans le cadre du Journal arabe des géosciencesqui, malgré le titre de la revue, abordait des sujets variés, notamment le sport, la pollution de l'air et la médecine infantile. En plus d’être hors sujet, les articles étaient mal rédigés – au point de ne pas avoir de sens – et les phrases manquaient souvent de ligne de pensée convaincante.
L’intelligence artificielle exacerbe le problème. En février dernier, l'éditeur Frontiers a été critiqué pour avoir publié un article dans sa revue Cellule et Biologie du développement qui comprenait des images générées par le logiciel d'IA Midjourney ; spécifiquement, très images anatomiquement incorrectes des voies de signalisation et des organes génitaux du rat. Frontiers a rétracté le journal plusieurs jours après sa publication.
Les modèles d’IA peuvent être une aubaine pour la science ; les systèmes peuvent décoder des textes fragiles de l'Empire romain, trouver des lignes de Nazca jusqu'alors inconnues et révéler des détails cachés dans les fossiles de dinosaures. Mais l’impact de l’IA peut être aussi positif ou négatif que l’humain qui l’utilise.
Les revues à comité de lecture – et peut-être les hébergeurs et les moteurs de recherche pour la rédaction universitaire – ont besoin de garde-fous pour garantir que la technologie fonctionne au service de la découverte scientifique, et non à son encontre.

:max_bytes(150000):strip_icc():focal(749x0:751x2)/prince-harry-loses-bid-120823-3a909df6061f4e8f8d2b8903922cd8ff.jpg)
GIPHY App Key not set. Please check settings