Une nouvelle recherche anthropique met en lumière la « boîte noire » de l’IA

Bien qu’ils soient créés par des humains, les grands modèles de langage restent encore assez mystérieux. Les algorithmes à indice d'octane élevé qui alimentent notre boom actuel de l'intelligence artificielle ont une façon de faire des choses qui ne sont pas explicables extérieurement pour les personnes qui les observent. C'est pourquoi l'IA a été largement surnommé « boîte noire » un phénomène qui n’est pas facile à comprendre de l’extérieur.

Qu'on le veuille ou non, votre médecin utilisera l'IA | IA débloquée

Une étude récemment publiée par Anthropic, l'une des plus grandes entreprises du secteur de l'IA, tente de faire la lumière sur les aspects les plus déroutants du comportement algorithmique de l'IA. Mardi, Anthropic a publié un document de recherche conçu pour expliquer pourquoi son chatbot IA, Claude, choisit de générer du contenu sur certains sujets plutôt que sur d'autres.

Systèmes d'IA sont mis en place dans une approximation approximative des réseaux neuronaux en couches du cerveau humain qui captent et traitent les informations, puis prennent des « décisions » ou des prédictions basées sur ces informations. De tels systèmes sont « entraînés » sur de larges sous-ensembles de données, ce qui leur permet d’établir des connexions algorithmiques. Cependant, lorsque les systèmes d’IA génèrent des données basées sur leur entraînement, les observateurs humains ne savent pas toujours comment l’algorithme est arrivé à ce résultat.

Ce mystère a donné naissance au domaine de Interprétation de l’IA», où les chercheurs tentent de retracer le cheminement de la prise de décision de la machine afin de pouvoir comprendre ses résultats. Dans le domaine de l'interprétation de l'IA, une « fonctionnalité » fait référence à un modèle d'activation « neurones » au sein d’un réseau neuronal – en fait un concept auquel l’algorithme peut se référer. Plus les chercheurs peuvent comprendre de « caractéristiques » au sein d'un réseau neuronal, plus ils peuvent comprendre comment certaines entrées déclenchent le réseau pour affecter certaines sorties.

Dans Un mémo Sur la base de leurs découvertes, les chercheurs d'Anthropic expliquent comment ils ont utilisé un processus connu sous le nom d'« apprentissage par dictionnaire » pour déchiffrer quelles parties du réseau neuronal de Claude correspondaient à des concepts spécifiques. Grâce à cette méthode, les chercheurs affirment avoir pu « commencer à comprendre le comportement du modèle en voyant quelles caractéristiques répondent à une entrée particulière, nous donnant ainsi un aperçu du « raisonnement » du modèle sur la façon dont il est arrivé à une réponse donnée.

Dans une interview avec l'équipe de recherche d'Anthropic menée par Steven Levy de Wired, les membres du personnel ont expliqué ce que c'était que de déchiffrer le fonctionnement du « cerveau » de Claude. Une fois qu’ils ont compris comment décrypter une fonctionnalité, cela en a conduit à d’autres :

Une caractéristique qui les a marqués était associée au Golden Gate Bridge. Ils ont cartographié l'ensemble des neurones qui, lorsqu'ils étaient activés ensemble, indiquaient que Claude « réfléchissait » à la structure massive qui relie San Francisco au comté de Marin. De plus, lorsque des ensembles similaires de neurones se déclenchaient, ils évoquaient des sujets adjacents au Golden Gate Bridge : Alcatraz, le gouverneur de Californie Gavin Newsom et le film d'Hitchcock. vertige, qui se déroule à San Francisco. Au total, l'équipe a identifié des millions de fonctionnalités, une sorte de pierre de Rosette pour décoder le réseau neuronal de Claude.

Il convient de noter qu’Anthropic, comme d’autres sociétés à but lucratif, pourrait avoir certaines motivations commerciales pour rédiger et publier ses recherches de la même manière. Cela dit, l'équipe le journal est publicce qui signifie que vous pouvez le lire par vous-même et tirer vos propres conclusions sur leurs conclusions et méthodologies.

Une nouvelle recherche anthropique met en lumière la « boîte noire » de l’IA

Cinq morts et 22 blessés dans un accident de camion aux Philippines

ONU : Macky Sall, l’architecte d’un multilatéralisme inclusif face aux fractures mondiales

Le Charles de Gaulle en mer d’Arabie : la France se positionne pour le détroit d’Ormuz

Somalie : 50 combattants al-Shabaab tués près de Baidoa

Drame aux Maldives : cinq plongeurs italiens morts dans une grotte, la sixième rescapée par un coup du sort

Guerre en Ukraine : 205 prisonniers échangés, un signal ou une illusion ?

Des chercheurs australiens conçoivent une puce nanofluidique dotée d’une mémoire semblable à celle du cerveau

Australie : un nouveau virus détecté chez les chauves-souris, les scientifiques surveillent de près

Duffy relance la conquête spatiale : un réacteur nucléaire sur la Lune d’ici 2030

Égypte ancienne : pourquoi les statues d’Hatchepsout ont été détruites après sa mort

Un immense nuage de particules cosmiques bouleverse les certitudes des astronomes

Pourquoi les chauves-souris ne développent (presque) jamais de cancer — et ce que cela peut changer pour les humains

Laisser un commentaireAnnuler la réponse

Ryan Reynolds publie un avertissement audacieux pour Deadpool & Wolverine

Voici la meilleure heure pour manger une banane le soir et faire baisser sa tension artérielle