in

Une nouvelle recherche anthropique met en lumière la « boîte noire » de l’IA

Bien qu’ils soient créés par des humains, les grands modèles de langage restent encore assez mystérieux. Les algorithmes à indice d'octane élevé qui alimentent notre boom actuel de l'intelligence artificielle ont une façon de faire des choses qui ne sont pas explicables extérieurement pour les personnes qui les observent. C'est pourquoi l'IA a été largement surnommé « boîte noire » un phénomène qui n’est pas facile à comprendre de l’extérieur.

Une étude récemment publiée par Anthropic, l'une des plus grandes entreprises du secteur de l'IA, tente de faire la lumière sur les aspects les plus déroutants du comportement algorithmique de l'IA. Mardi, Anthropic a publié un document de recherche conçu pour expliquer pourquoi son chatbot IA, Claude, choisit de générer du contenu sur certains sujets plutôt que sur d'autres.

Systèmes d'IA sont mis en place dans une approximation approximative des réseaux neuronaux en couches du cerveau humain qui captent et traitent les informations, puis prennent des « décisions » ou des prédictions basées sur ces informations. De tels systèmes sont « entraînés » sur de larges sous-ensembles de données, ce qui leur permet d’établir des connexions algorithmiques. Cependant, lorsque les systèmes d’IA génèrent des données basées sur leur entraînement, les observateurs humains ne savent pas toujours comment l’algorithme est arrivé à ce résultat.

Ce mystère a donné naissance au domaine de Interprétation de l’IA», où les chercheurs tentent de retracer le cheminement de la prise de décision de la machine afin de pouvoir comprendre ses résultats. Dans le domaine de l'interprétation de l'IA, une « fonctionnalité » fait référence à un modèle d'activation « neurones » au sein d’un réseau neuronal – en fait un concept auquel l’algorithme peut se référer. Plus les chercheurs peuvent comprendre de « caractéristiques » au sein d'un réseau neuronal, plus ils peuvent comprendre comment certaines entrées déclenchent le réseau pour affecter certaines sorties.

Dans Un mémo Sur la base de leurs découvertes, les chercheurs d'Anthropic expliquent comment ils ont utilisé un processus connu sous le nom d'« apprentissage par dictionnaire » pour déchiffrer quelles parties du réseau neuronal de Claude correspondaient à des concepts spécifiques. Grâce à cette méthode, les chercheurs affirment avoir pu « commencer à comprendre le comportement du modèle en voyant quelles caractéristiques répondent à une entrée particulière, nous donnant ainsi un aperçu du « raisonnement » du modèle sur la façon dont il est arrivé à une réponse donnée.

Dans une interview avec l'équipe de recherche d'Anthropic menée par Steven Levy de Wired, les membres du personnel ont expliqué ce que c'était que de déchiffrer le fonctionnement du « cerveau » de Claude. Une fois qu’ils ont compris comment décrypter une fonctionnalité, cela en a conduit à d’autres :

Une caractéristique qui les a marqués était associée au Golden Gate Bridge. Ils ont cartographié l'ensemble des neurones qui, lorsqu'ils étaient activés ensemble, indiquaient que Claude « réfléchissait » à la structure massive qui relie San Francisco au comté de Marin. De plus, lorsque des ensembles similaires de neurones se déclenchaient, ils évoquaient des sujets adjacents au Golden Gate Bridge : Alcatraz, le gouverneur de Californie Gavin Newsom et le film d'Hitchcock. vertige, qui se déroule à San Francisco. Au total, l'équipe a identifié des millions de fonctionnalités, une sorte de pierre de Rosette pour décoder le réseau neuronal de Claude.

Il convient de noter qu’Anthropic, comme d’autres sociétés à but lucratif, pourrait avoir certaines motivations commerciales pour rédiger et publier ses recherches de la même manière. Cela dit, l'équipe le journal est publicce qui signifie que vous pouvez le lire par vous-même et tirer vos propres conclusions sur leurs conclusions et méthodologies.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

    Ryan Reynolds publie un avertissement audacieux pour Deadpool & Wolverine

    Voici la meilleure heure pour manger une banane le soir et faire baisser sa tension artérielle