en sábado, Triangulos El CEO Oleksandr Tomchuk fue alertado de que el sitio de comercio electrónico de su empresa estaba caído. Parecía ser algún tipo de ataque distribuido de denegación de servicio.
Pronto descubrió que el culpable era un robot de OpenAI que intentaba incansablemente eliminar todo su enorme sitio.
“Tenemos más de 65.000 productos, cada producto tiene una página”, dijo Tomchuk a TechCrunch. “Cada página tiene al menos tres imágenes”.
OpenAI envió “decenas de miles” de solicitudes al servidor intentando descargarlas todas, cientos de miles de imágenes, junto con sus descripciones detalladas.
“OpenAI usó 600 direcciones IP para extraer datos, y todavía estamos analizando los registros de la semana pasada, podrían ser muchas más”, dijo sobre las direcciones IP que usó el robot para intentar consumir su sitio.
“Sus escáneres destruyeron nuestro sitio”, dijo. “Fue básicamente un ataque DDoS”.
El sitio web de Triplegangers es asunto suyo. La empresa, que cuenta con siete empleados, ha pasado más de una década construyendo lo que llama la mayor base de datos de “dobles humanos digitales” en Internet, es decir, archivos de imágenes en 3D escaneados a partir de modelos humanos reales.
Vende archivos de objetos 3D, así como imágenes (desde manos hasta cabello, piel y cuerpo completo) a artistas 3D, creadores de videojuegos y cualquiera que necesite recrear digitalmente rasgos humanos auténticos.
El equipo de Tomchuk, con sede en Ucrania pero también con licencia en EE.UU. desde Tampa, Florida, tiene una Página de términos de servicio en su sitio web que prohíbe a los robots tomarle fotografías sin permiso. Pero eso por sí solo no hizo nada. Los sitios web deben utilizar un archivo robot.txt configurado correctamente con etiquetas que le indiquen específicamente al robot de OpenAI, GPTBot, que deje el sitio en paz. (OpenAI también tiene varios otros bots, ChatGPT-User y OAI-SearchBot, que tienen sus propias etiquetas, Según su página de información sobre sus escáneres..)
Robot.txt, también conocido como Protocolo de exclusión de robots, se creó para indicar a los sitios web de motores de búsqueda qué no rastrear mientras indexan la web. OpenAI dice en su página de información que respeta dichos archivos cuando se configuran con su propio conjunto de etiquetas de no escanear, aunque también advierte que sus bots pueden tardar hasta 24 horas en detectar un archivo robots.txt actualizado.
Como ha experimentado Tomchuk, si un sitio no utiliza correctamente robot.txt, OpenAI y otros dicen que pueden arrancarse el corazón. Este no es un sistema de suscripción voluntaria.
Para colmo de males, el bot de OpenAI no solo dejó fuera de línea a Triplegangers durante el horario comercial en los EE. UU., sino que Tomchuk espera que una cuenta de AWS se bloquee gracias a toda la CPU y la actividad de descarga del bot.
Robot.txt tampoco es a prueba de fallos. Las empresas de inteligencia artificial lo cumplen voluntariamente. Otra startup de IA, Perplexity, fue denunciada el verano pasado por una investigación de Wired cuando algunas pruebas sugirieron que Perplexity no la estaba respetando.
No puedo decir con certeza qué se tomó.
El miércoles, días después del regreso del bot OpenAI, Triplegangers tenía un archivo robot.txt configurado correctamente y también una cuenta de Cloudflare configurada para bloquear su GPPTBot y varios otros bots que descubrió, como Barkrowler (un rastreador de SEO) y Bytespider (escáner TokTok). . Tomchuk también espera haber bloqueado los escáneres de otras empresas de modelos de IA. Hasta el jueves por la mañana, el sitio no había fallado, dijo.
Pero Tomchuk todavía no tiene una forma razonable de descubrir exactamente qué ha tomado OpenAI con éxito o de eliminar ese material. No pudo encontrar una manera de contactar a OpenAI y preguntar. OpenAI no respondió a la solicitud de comentarios de TechCrunch. Y OpenAI hasta ahora no ha logrado entregar la herramienta de cancelación prometida durante mucho tiempo, como informó recientemente TechCrunch.
Este es un tema particularmente complicado para los Triplegangers. “Estamos en un negocio donde los derechos son un problema serio, porque estamos escaneando a personas reales”, dijo. Con leyes como el GDPR de Europa, “no pueden simplemente tomar la fotografía de alguien en línea y usarla”.
El sitio Triplegangers también fue un hallazgo particularmente interesante para los escáneres de IA. Han surgido empresas emergentes multimillonarias como Scale AI donde los humanos etiquetan cuidadosamente imágenes para entrenar la inteligencia artificial. El sitio web de Triplegangers contiene fotografías etiquetadas en detalle: etnia, edad, tatuajes versus cicatrices, todo tipo de cuerpo, etc.
La ironía es que fue la codicia del robot OpenAI lo que alertó a Triplegangers de lo expuesto que estaba. Si se hubiera rascado con más suavidad, Tomchuk nunca lo habría sabido, dijo.
“Da miedo porque parece haber una laguna jurídica que estas empresas están utilizando para extraer datos diciendo ‘puedes optar por no participar si actualizas tu robot.txt con nuestras etiquetas'”, dice Tomchuk, pero la responsabilidad recae en el propietario de la empresa. para descubrir cómo bloquearlos.
Quiere que otras pequeñas empresas en línea sepan que la única forma de saber si un robot de inteligencia artificial está tomando material protegido por derechos de autor de un sitio web es realizar una búsqueda activa. Ciertamente no es el único que les teme. Los propietarios de otros sitios dijeron recientemente Información privilegiada sobre negocios Cómo los bots de OpenAI bloquearon sus sitios y ejecutaron sus cuentas de AWS.
El problema aumentará en 2024. Nueva investigación de la empresa de publicidad digital DoubleVerify Descubrió que los escáneres de IA Y los scrapers provocaron un aumento del 86% en el “tráfico ilegal general” en 2024, es decir, el tráfico que no proviene de un usuario real.
Aun así, “la mayoría de los sitios todavía no saben que han sido eliminados por estos robots”, advierte Tomchuk. “Ahora necesitamos monitorear la actividad del libro de registro para identificar estos robots”.
Si lo piensas bien, todo el modelo funciona un poco como socavar a la mafia: los robots de IA tomarán lo que quieran a menos que tengas protección.
“Deberían pedir permiso, no simplemente extraer datos”, dice Tomchuk.
¡TechCrunch tiene un boletín informativo centrado en la IA! Regístrese aquí para recibirlo en su bandeja de entrada todos los miércoles.