Poco después de que OpenAI lanzara o1, su primer modelo de IA con “sentido”, la gente empezó a notar un fenómeno extraño. El modelo a veces empezaba a “pensar” en chino, persa u otro idioma, incluso cuando se le hacía una pregunta en inglés.

Dado un problema para ordenar, por ejemplo “¿Cuántas R hay en la palabra ‘fresa’?” – o1 comenzará su proceso de “pensamiento” y llegará a una respuesta siguiendo una serie de pasos de pensamiento. Si la pregunta fue escrita en inglés, la respuesta final de o1 será en inglés. Pero el modelo realizará varios pasos en otro idioma antes de llegar a su conclusión.

“(O1) empezó a pensar en chino al azar a mitad de camino”, dijo un usuario de Reddit. dicho.

“¿Por qué (o1) empezó a pensar en chino al azar?” Otro usuario preguntó en un anunciarse en x. “Ninguna parte de la conversación (más de 5 mensajes) fue en chino”.

OpenAI no ha proporcionado una explicación para el extraño comportamiento de o1, ni siquiera lo ha reconocido. Entonces, ¿qué podría pasar?

Bueno, los expertos en IA no están seguros. Pero tienen algunas teorías.

Varios en X, incluido el director ejecutivo de Hugging Face, Clement Delange, pista Al hecho de que los modelos lógicos como o1 se entrenan en conjuntos de datos que contienen muchos caracteres chinos. Ted Xiao, investigador de Google DeepMind, argumentó que empresas como OpenAI utilizan servicios de etiquetado de datos chinos de terceros, y que el cambio de o1 al chino es un ejemplo de “influencia lingüística china en el pensamiento”.

“(Laboratorios como) OpenAI y Anthropic utilizan servicios de etiquetado de datos (de terceros) para datos de razonamiento de nivel de doctorado para ciencias, matemáticas y codificación”, escribió Xiao en anunciarse en x. “(O)ra por disponibilidad de mano de obra y razones de costo, muchos de estos proveedores de datos tienen su sede en China”.

Las etiquetas, también conocidas como etiquetas o anotaciones, ayudan a los modelos a comprender e interpretar los datos durante el proceso de capacitación. Por ejemplo, las etiquetas para entrenar un modelo de reconocimiento de imágenes pueden tomar la forma de etiquetas alrededor de objetos o leyendas que hacen referencia a cada persona, lugar u objeto representado en la imagen.

Los estudios han demostrado que las etiquetas sesgadas pueden producir modelos sesgados. Por ejemplo, el Indica un promedio Es más probable que las frases en inglés vernáculo afroamericano (AAVE), la gramática informal utilizada por algunos estadounidenses negros, sean etiquetadas como detectores de toxicidad de IA líderes entrenados en etiquetas para ver AAVE como desproporcionadamente tóxico.

Sin embargo, otros expertos no creen en la hipótesis del etiquetado de datos chino de o1. Señalan que se espera que o1 pase no menos hindi, tailandéso un idioma que no sea chino mientras se burla de una solución.

En cambio, estos expertos dicen, o1 y otros modelos de pensamiento puede ser simple uso de idiomas Les resulta más eficaz lograr un objetivo (o ilusorio).

“El modelo no sabe qué es un idioma, o que los idiomas son diferentes”, dijo a TechCrunch Matthew Guzdial, investigador de inteligencia artificial y profesor asistente en la Universidad de Alberta. “Para él todo es sólo un mensaje de texto”.

De hecho, los modelos no procesan palabras directamente. En su lugar, utilizan fichas. Fichas estaño ser palabras como “fantástico”. O pueden ser sílabas, como “fan”, “tas” y “tick”. O incluso pueden ser letras sueltas en palabras, por ejemplo, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”.

Al igual que el etiquetado, los tokens pueden introducir sesgos. Por ejemplo, muchos traductores de palabra a símbolo suponen que un espacio en una oración indica una nueva palabra, a pesar de que no todos los idiomas utilizan espacios para separar palabras.

Tiezhen Wang, ingeniero de software de la startup de inteligencia artificial Hugging Face, está de acuerdo con Guzdial en que la inconsistencia en el lenguaje de los modelos puede explicarse por las asociaciones que los modelos hicieron durante el entrenamiento.

“Al abarcar todos los matices lingüísticos, ampliamos la visión del mundo del modelo y le permitimos aprender de todo el espectro del conocimiento humano”, Wang escribiendo En una publicación en X. “Por ejemplo, prefiero hacer matemáticas en chino porque cada dígito tiene solo una sílaba, lo que hace que los cálculos sean detallados y eficientes. Pero cuando se trata de temas como el sesgo inconsciente, automáticamente cambio al inglés, principalmente porque ahí es donde aprendí por primera vez”. y absorbió estas ideas.”

La teoría de Wang es plausible. Después de todo, los modelos son máquinas probabilísticas. Entrenados con muchos ejemplos, aprenden patrones para hacer predicciones, como por ejemplo cómo “a quién” en un correo electrónico suele preceder a “puede interesar”.

Pero Luca Soldini, científico investigador del Instituto Allen para la Inteligencia Artificial, una organización sin fines de lucro, advirtió que no podemos saberlo con seguridad. “Este tipo de observación no puede respaldarse en un sistema de IA implementado debido a lo opacos que son estos modelos”, dijo a TechCrunch. “Este es uno de los muchos casos en los que la transparencia en la construcción de sistemas de inteligencia artificial es fundamental”.

Salvo una respuesta de OpenAI, nos queda reflexionar por qué o1 está pensando en Lírica Aunque en francés biología sintética en mandarina

Source link