Una importante demanda por derechos de autor contra Meta reveló un tesoro de comunicaciones internas sobre los planes de la compañía para desarrollar su modelo de inteligencia artificial de código abierto, Llama, incluida “cobertura mediática que sugiere que utilizamos un conjunto de datos que se sabe que es pirateado”.
Los mensajes, que formaban parte de una serie de pruebas reveladas por un tribunal de California, sugieren que Meta utilizó datos protegidos por derechos de autor para entrenar su sistema de inteligencia artificial y trabajó para ocultarlos, mientras corría para vencer a rivales como OpenAI y Mistral. parte de El mensaje se publica primero. la semana pasada
En un correo electrónico de octubre de 2023 al investigador de Meta AI Hugo Tuvron, el vicepresidente de IA generativa de Meta, Ahmed Al-Dahle, Escribí los objetivos de la empresa. “Necesita ser GPT4”, en referencia al modelo de lenguaje grande que OpenAI anunció en marzo de 2023. Esos planes aparentemente están entrelazados Sitio de piratería de libros Library Genesis (LibGen) Para entrenar su sistema de IA.
A Correo electrónico no identificado del metadirector de producto Sonny ThekanathEnviado a Joel Pineau, vicepresidente de investigación de IA, para verificar si se debe usar LibGen solo internamente, para los puntos de referencia incluidos en una publicación de blog o para construir un modelo entrenado en el sitio. En el correo electrónico, Thekanath escribió que “GenAI recibió aprobación para usar LibGen para Llama3… con muchas mitigaciones de consentimiento” después de que se escalara a “MZ”, presumiblemente el CEO de Meta, Mark Zuckerberg. Como se indica en el correo electrónico, Thekanath cree que “Libgen es esencial para cumplir con los números SOTA (estado del arte)”, y agregó “se sabe que OpenAI y Mistral están utilizando la biblioteca (de boca en boca) para sus modelos. ” Mistral y OpenAI no dijeron si usan LibGen. (El borde Póngase en contacto con ambos para obtener más información).
Los documentos judiciales surgen de una demanda colectiva que el autor Richard Cudre, la comediante Sarah Silverman y otros presentaron contra Meta, acusando a Meta de utilizar material protegido por derechos de autor obtenido ilegalmente para entrenar sus modelos de IA, en violación de las leyes de propiedad intelectual. Meta, al igual que otras empresas de inteligencia artificial, ha argumentado que el uso de material protegido por derechos de autor en datos de entrenamiento debería constituir un uso legal legítimo. El borde Se contactó a Meta con una solicitud de comentarios, pero no fue respondida de inmediato.
Algunas condiciones de “mitigación” para el uso de LibGen incluyen que Meta debe “eliminar los datos identificados como pirateados/robados”, evitando al mismo tiempo mencionar “cualquier uso de datos de entrenamiento” del sitio externamente. El correo electrónico de Theknath también decía que la compañía tenía que “equipar” sus modelos para los riesgos de “armas biológicas y CBRNE (químicos, biológicos, radiológicos, nucleares y explosivos)”.
El correo electrónico también repasa algunos de los “riesgos políticos” planteados por el uso de LibGen, incluyendo cómo los reguladores podrían responder a la cobertura de los medios que sugiere el uso de contenido pirateado por parte de Meta. “Esto podría debilitar nuestra posición negociadora con los reguladores sobre estos asuntos”, decía el correo electrónico. Una conversación de abril de 2023 Entre el investigador de Meta Nikolay Bashlikov y el miembro del equipo de IA David Esiobu, Bashlikov admitió que “no estaba seguro de que podamos usar Meta IP para cargar torrents a través de contenido pirateado”.
Otros documentos internos Muestre las medidas que Meta ha tomado para ocultar la información de derechos de autor en la información de capacitación de LibGen. Un documento titulado “Observaciones sobre LibGen-SciMag” muestra comentarios proporcionados por los empleados sobre cómo mejorar el conjunto de datos. Una sugerencia es “Eliminar títulos de derechos de autor e identificadores de documentos adicionales”, incluidas las líneas que contengan “ISBN”, “Derechos de autor”, “Todos los derechos reservados” o el símbolo de copyright. Otras notas mencionan tomar más metadatos para “evitar posibles complicaciones legales”, así como considerar la posibilidad de eliminar la lista de autores de un artículo para “reducir la responsabilidad”.
El pasado mes de junio, Los New York Times Informe El frenesí dentro de Meta después del debut de ChatGPT reveló que la compañía se había topado con un muro: había utilizado casi todos los libros, artículos y poemas en inglés disponibles en línea. Desesperados por obtener más información, los ejecutivos consideraron comprar Simon & Schuster directamente y consideraron contratar contratistas en África para resumir libros sin permiso.
En el informe, algunos ejecutivos justificaron su enfoque señalando el “precedente de mercado” del uso de obras protegidas por derechos de autor de OpenAI, mientras que otros argumentaron La victoria judicial de Google en 2015 estableció su derecho a escanear libros Puede proporcionar cobertura legal. “Lo único que nos impide ser tan buenos como ChatGPT es, literalmente, el volumen de datos”, dijo un ejecutivo en una reunión, según Los New York Times.
Se ha informado que Frontier Labs como OpenAI y Anthropic se han topado con un muro de datos, lo que significa que no tienen suficientes datos nuevos para entrenar sus grandes modelos de lenguaje. Muchos líderes lo han negado, incluido el director ejecutivo de OpenAI, Sam Altman. claramente indicado: “No hay muro.” El cofundador de OpenAI, Ilya Sutskever, quien dejó la compañía en mayo pasado para iniciar un nuevo laboratorio de frontera, fue más directo sobre el potencial del muro de datos. En una importante conferencia sobre IA el mes pasado, Satskever dijo: “Hemos alcanzado el máximo de datos y no habrá más. Tenemos que trabajar con los datos que tenemos. Sólo hay una Internet.”
Esta escasez de datos ha llevado a formas nuevas y completamente extrañas de obtener datos únicos. Bloomberg Informe Frontier Labs como OpenAI y Google están pagando a los creadores de contenidos digitales entre 1 y 4 dólares por minuto por sus secuencias de vídeo no utilizadas a través de terceros para la formación de LLM (ambas empresas tienen productos de generación de vídeos de IA de la competencia).
Dado que empresas como Meta y OpenAI esperan hacer crecer sus sistemas de inteligencia artificial lo más rápido posible, es probable que las cosas se pongan un poco complicadas. Aunque un juez desestimó parcialmente la demanda colectiva de Cadre y Silverman el año pasado, las pruebas descritas aquí podrían reforzar partes de su caso a medida que avanza en los tribunales.