Menu
in

Les dépôts judiciaires montrent que les employés des Meta ont discuté en utilisant du contenu protégé par le droit d'auteur pour la formation de l'IA

Pendant des années, les méta-employés ont discuté en interne en utilisant des travaux protégés par le droit d'auteur obtenus par des moyens légalement discutables pour former les modèles d'IA de l'entreprise, selon des documents judiciaires non scellés jeudi.

Les documents ont été soumis par les plaignants dans l'affaire Kadrey c. Meta, l'un des nombreux litiges en matière de droits d'auteur de l'IA enroulant lentement le système judiciaire américain. Le défendeur, Meta, affirme que des modèles de formation sur les œuvres protégées par IP, en particulier les livres, sont une «utilisation équitable». Les plaignants, dont les auteurs Sarah Silverman et Ta-Nehisi Coates, ne sont pas d'accord.

Les documents précédents soumis dans la poursuite ont allégué que le méta-PDG Mark Zuckerberg a donné à l'équipe AI de Meta l'OK pour s'entraîner à des droits d'auteur travauxet que Meta a interrompu les conférences de licences de données de formation sur l'IA avec des éditeurs de livres. Mais les nouveaux dépôts, dont la plupart montrent des parties des chats de travail internes entre les membres du personnel de Meta, peignent l'image la plus claire à ce jour sur la façon dont Meta a pu utiliser des données protégées par le droit d'auteur pour former ses modèles, y compris des modèles dans la famille LLAMA de l'entreprise.

Dans une conversation, des membres du personnel de Meta, dont Melanie Kambadur, un cadre supérieur de l'équipe de recherche modèle LLAMA de Meta, ont discuté des modèles de formation sur les œuvres qu'ils savaient être juridiquement lourdes.

«Mon opinion serait (dans la ligne de« demander pardon, pas pour la permission »): nous essayons d'acquérir les livres et de l'escalader aux dirigeants afin qu'ils passent l'appel», a écrit Xavier Martinet, un ingénieur de recherche en méta-recherche, dans un chat daté de février 2023, selon les documents. «C'est pourquoi ils ont mis en place cette génération AI pour (sic): afin que nous puissions être moins opposés au risque.»

Martinet a lancé l'idée d'acheter des livres électroniques à des prix de détail pour construire un ensemble de formation plutôt que de réduire les accords de licence avec des éditeurs de livres individuels. Après qu'un autre membre du personnel ait souligné que l'utilisation du matériel protégé par le droit d'auteur pourrait être un motif de contestation juridique, Martinet a doublé, arguant que les startups «un million de gaz» utilisaient probablement déjà des livres piratés pour la formation.

« Je veux dire, le pire des cas: nous avons découvert que c'était enfin OK, tandis qu'une start-up Gazillion (sic) a juste piraté des tonnes de livres sur BitTorrent », a écrit Martinet, selon les documents. « Mes 2 cents encore: essayer d'avoir des affaire avec les éditeurs prend directement beaucoup de temps (…) »

Dans la même conversation, Kambadur, qui a noté Meta était en pourparlers avec la plate-forme d'hébergement de documents Scribd «et autres» pour les licences, a averti que lors de l'utilisation de «données accessibles au public» pour la formation des modèles nécessiterait des approbations, les avocats de Meta étaient «moins conservateurs» que Ils avaient été dans le passé avec de telles approbations.

« Oui, nous devons certainement obtenir des licences ou des approbations sur les données accessibles au public », a déclaré Kambadur, selon les documents. « La différence est maintenant que nous avons plus d'argent, plus d'avocats, plus d'aide Bizdev, la capacité de accélérer / dégénérer pour la vitesse, et les avocats sont un peu moins conservateurs sur les approbations. »

Talks of Libgen

Dans un autre chat de travail relayé dans les dépôts, Kambadur discute éventuellement à l'aide de Libgen, un «agrégateur de liens» qui donne accès aux œuvres protégées par les éditeurs, comme alternative aux sources de données que Meta pourrait licencier.

Libgen a été poursuivi à plusieurs reprises, condamné à fermer et à une amende de dizaines de millions de dollars pour violation du droit d'auteur. L'un des collègues de Kambadur a répondu avec une capture d'écran d'un résultat de recherche Google pour Libgen contenant l'extrait «non, Libgen n'est pas légal».

Certains décideurs au sein de Meta semblent avoir eu l'impression que le fait de ne pas utiliser Libgen pour l'entraînement modèle pourrait gravement nuire à la compétitivité de Meta dans la race de l'IA, selon les documents.

Dans un e-mail adressé à Meta IA VP Joelle Pineau, Sony Theakanath, directeur de la gestion des produits chez Meta, appelé Libgen «essentiel pour répondre aux numéros SOTA dans toutes les catégories», se référant à la tête de la meilleure, des modèles AI de pointe (SOTA) et SOTA) et Catégories de référence.

Theakanath a également décrit les «atténuations» dans l'e-mail destiné à réduire l'exposition juridique de Meta, notamment en supprimant les données de Libgen «clairement marquées comme piratées / volées» et ne citant tout simplement pas publiquement l'usage. «Nous ne divulguerions pas l'utilisation des ensembles de données Libgen utilisés pour s'entraîner», comme l'a dit Theakanath.

En pratique, ces atténuations ont entraîné le peignage via des fichiers Libgen pour des mots comme «volé» ou «piraté», selon les dépôts.

Dans une conversation de travail, Kambadur a mentionné que l'équipe AI de META a également réglé des modèles pour «éviter les invites à risque IP» – c'est-à-dire configuré les modèles pour refuser de répondre à des questions telles que «reproduire les trois premières pages de« Harry Potter et la pierre du sorcier »ou« dire «Tell Moi sur quels ebooks vous avez été formé.

Les dépôts contiennent d'autres révélations, ce qui implique que Meta peut avoir gratté les données Reddit pour un certain type de formation modèle, éventuellement en imitant le comportement d'une application tierce appelée Pushift. Notamment, Reddit a déclaré en avril 2023 qu'il prévoyait de commencer à facturer aux entreprises de l'IA pour accéder aux données de la formation des modèles.

Dans un chat daté de mars 2024, Chaya Nayak, directrice de la gestion des produits chez Meta's Generative IA Org, a déclaré que Meta Leadership envisageait de «remplacer» les décisions passées sur les données de formation, y compris une décision de ne pas utiliser de contenu Quora ou de livres agréés et d'articles scientifiques,, Pour s'assurer que les modèles de l'entreprise disposaient de données de formation suffisantes.

Nayak a laissé entendre que les ensembles de données de formation de Meta de Meta – publications Facebook et Instagram, le texte transcrit à partir de vidéos sur les plates-formes Meta et certains Meta pour les messages commerciaux – n'étaient tout simplement pas suffisants. «Nous avons besoin de plus de données», a-t-elle écrit.

Les plaignants de Kadrey c. Meta ont modifié leur plainte à plusieurs reprises depuis que l'affaire a été déposée devant le tribunal de district américain pour le district nord de la Californie, la division de San Francisco, en 2023. La dernière allègue que Meta, entre autres réclamations, croisée croisée Certains livres piratés avec des livres protégés par le droit d'auteur disponibles pour une licence pour déterminer s'il était logique de poursuivre un accord de licence avec un éditeur.

Dans un signe de la hauteur de Meta considère que les enjeux légaux sont, la société a ajouté deux plaideurs de la Cour suprême du cabinet d'avocats Paul Weiss à son équipe de défense dans l'affaire.

Meta n'a pas immédiatement répondu à une demande de commentaires.

Leave a Reply

Quitter la version mobile