Anthropic lance un fonds pour mesurer les capacités des modèles d'IA

La recherche sur l’IA progresse à grands pas, mais notre capacité à évaluer ses capacités et ses risques potentiels semble être à la traîne. Pour combler cette lacune critique et reconnaître les limites actuelles des écosystèmes d’évaluation tiers, Anthropic a lancé une initiative visant à investir dans le développement de critères de référence robustes et pertinents en matière de sécurité pour évaluer les capacités et les risques de l’IA avancée.

« Un écosystème d’évaluation robuste et indépendant est essentiel pour évaluer les capacités et les risques de l’IA, mais le paysage actuel des évaluations est limité », a déclaré Anthropic dans un article de blog. « Développer des évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l’offre. Pour y remédier, nous lançons aujourd’hui une nouvelle initiative visant à financer des évaluations développées par des organisations tierces qui peuvent mesurer efficacement les capacités avancées des modèles d’IA. »

Anthropic se différencie des autres entreprises du secteur de l’IA en se présentant comme une entreprise d’IA responsable et axée sur la sécurité.

L'entreprise a invité les parties intéressées à soumettre des propositions via leur formulaire de candidature, en particulier celles portant sur les domaines d'intérêt hautement prioritaires.

L'initiative d'Anthropic intervient à un moment crucial où la demande d'évaluations d'IA de haute qualité dépasse rapidement l'offre. L'entreprise vise à financer des organisations tierces pour développer de nouvelles évaluations capables de mesurer efficacement les capacités avancées de l'IA, élevant ainsi l'ensemble du domaine de la sécurité de l'IA.

« Nous recherchons des évaluations qui nous aident à mesurer les niveaux de sécurité de l'IA (ASL) définis dans notre politique de mise à l'échelle responsable », poursuit l'annonce. « Ces niveaux déterminent les exigences de sécurité et de sûreté pour les modèles dotés de capacités spécifiques. »

L’initiative se concentrera sur trois domaines principaux : les évaluations du niveau de sécurité de l’IA, les mesures avancées de capacité et de sécurité et l’infrastructure pour le développement des évaluations. Chaque domaine répond à des défis et des opportunités spécifiques au sein du domaine de l’IA.

Donner la priorité aux évaluations de sécurité

Les évaluations du niveau de sécurité de l'IA porteront sur la cybersécurité, les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), l'autonomie des modèles et d'autres risques pour la sécurité nationale. Les évaluations mesureront les niveaux de sécurité de l'IA définis dans la politique de mise à l'échelle responsable d'Anthropic, garantissant que les modèles sont développés et déployés de manière responsable.

« Des évaluations ASL solides sont essentielles pour garantir que nous développons et déployons nos modèles de manière responsable », a souligné Anthropic. « Des évaluations efficaces dans ce domaine pourraient ressembler à de nouveaux défis Capture The Flag (CTF) sans solutions accessibles au public. Les évaluations actuelles sont souvent insuffisantes, soit trop simplistes, soit avec des solutions facilement accessibles en ligne. »

L’entreprise a également sollicité des solutions pour répondre à des problèmes critiques tels que les menaces à la sécurité nationale potentiellement posées par les systèmes d’IA.

« Les systèmes d’IA ont le potentiel d’avoir un impact significatif sur la sécurité nationale, la défense et les opérations de renseignement des acteurs étatiques et non étatiques », ajoute le communiqué. « Nous nous engageons à développer un système d’alerte précoce pour identifier et évaluer ces risques émergents complexes. »

Au-delà de la sécurité : mesurer les capacités avancées

Au-delà de la sécurité, le fonds vise à développer des critères de référence qui évaluent l'ensemble des capacités et des risques potentiels d'un modèle de données. Cela comprend des évaluations pour la recherche scientifique, où Anthropic envisage des modèles capables de s'attaquer à des tâches complexes comme la conception de nouvelles expériences ou le dépannage de protocoles.

« L’infrastructure, les outils et les méthodes de développement des évaluations seront essentiels pour réaliser des tests plus efficaces et efficients au sein de la communauté de l’IA », indique l’annonce. Anthropic vise à rationaliser le développement d’évaluations de haute qualité en finançant des outils et des plateformes qui permettent aux experts en la matière de créer plus facilement des évaluations robustes sans avoir besoin de compétences en codage.

« En plus des évaluations ASL, nous souhaitons obtenir des mesures avancées de capacité et de sécurité », a expliqué Anthropic. « Ces mesures nous permettront de mieux comprendre les points forts et les risques potentiels de nos modèles. »

Construire un écosystème d'évaluation plus efficace

Anthropic a souligné que l’élaboration d’évaluations efficaces est un défi et a exposé les principes clés pour créer des évaluations solides. Il s’agit notamment de veiller à ce que les évaluations soient suffisamment difficiles, non incluses dans les données de formation, évolutives et bien documentées.

« Nous souhaitons financer des outils et des infrastructures qui rationalisent le développement d'évaluations de haute qualité », a déclaré Anthropic dans le communiqué. « Ces outils seront essentiels pour réaliser des tests plus efficaces et plus efficients au sein de la communauté de l'IA. »

Cependant, l'entreprise reconnaît que « développer une évaluation de qualité est difficile » et que « même certains des développeurs les plus expérimentés tombent dans des pièges courants, et même les meilleures évaluations ne sont pas toujours indicatives des risques qu'elles prétendent mesurer ».

Pour aider les développeurs intéressés à soumettre leurs propositions et à affiner leurs soumissions, Anthropic a déclaré qu'il faciliterait les interactions avec les experts du domaine de la « Frontier Red Team, Finetuning, Trust & Safety » et d'autres équipes concernées.

Une demande de commentaire d’Anthropic est restée sans réponse.

Avec cette initiative, Anthropic envoie un message clair : la course à l’IA avancée ne peut être gagnée sans donner la priorité à la sécurité. En favorisant un écosystème d’évaluation plus complet et plus robuste, Anthropic pose les bases d’un avenir où l’IA profite à l’humanité sans poser de menaces existentielles.