Los llamados modelos de IA discrecional son cada vez más fáciles (y más baratos) de desarrollar.
El viernes, NovaSky, un equipo de investigadores del Sky Computing Lab de UC Berkeley, lanzó Sky-T1-32B-Preview, un modelo de inteligencia competitiva con una versión anterior de OpenAI o1 en varios puntos de referencia clave. Sky-T1 parece ser el primer modelo de pensamiento verdaderamente de código abierto en el sentido de que puede replicarse desde cero; El equipo publicó el conjunto de datos que utilizaron para entrenarlo, así como el código de entrenamiento necesario.
“Sorprendentemente, Sky-T1-32B-Preview fue entrenado por menos de $450”, escribió el equipo en Publicación de blog“Demostrar que es posible reproducir capacidades de pensamiento de alto nivel a un precio razonable y de manera eficiente”.
A diferencia de la mayoría de la inteligencia artificial, los modelos de pensamiento se autoprueban de manera efectiva, lo que les ayuda a evitar algunos de los problemas que comúnmente afectan a los modelos. Los modelos de razonamiento tardan un poco más (generalmente de segundos a minutos más) en llegar a soluciones en comparación con un modelo típico sin razonamiento. La ventaja es que tienden a ser más fiables en áreas como la física, las ciencias y las matemáticas.
El equipo de NovaSky dice que utilizó otro modelo mental, el QwQ-32B-Preview de Alibaba, para generar los datos de entrenamiento iniciales para Sky-T1, luego “seleccionó” la combinación de datos y aprovechó el GPT-4o-mini de OpenAI para devolver los datos para más. Formato ejecutable de la información. Entrenar el Sky-T1 con 32 mil millones de parámetros tomó aproximadamente 19 horas usando un bastidor de 8 GPU Nvidia H100. (Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas del modelo).
Según el equipo de NovaSky, Sky-T1 supera a una versión preliminar de o1 en MATH500, una colección de desafíos matemáticos de “nivel competitivo”. El modelo también supera la vista previa o1 en una serie de problemas difíciles de LiveCodeBench, una evaluación de codificación.
Sin embargo, Sky-T1 no llega a la vista previa o1 en GPQA-Diamond, que contiene preguntas relacionadas con física, biología y química que se espera que sepa un graduado de doctorado.
También es importante tener en cuenta que la versión GA de o1 de OpenAI es un modelo más potente que la versión preliminar de o1, y que se espera que OpenAI lance un modelo de inferencia con un rendimiento aún mejor, o3, en las próximas semanas.
Pero el equipo de NovaSky afirma que Sky-T1 sólo marca el comienzo de su viaje para desarrollar modelos de código abierto con capacidades de pensamiento avanzadas.
“En el futuro, nos centraremos en desarrollar modelos más eficientes que mantengan un sólido rendimiento de razonamiento y exploraremos técnicas avanzadas que mejoren aún más la eficiencia y precisión de los modelos durante las pruebas”, escribió el equipo en la publicación. “Estén atentos a medida que avanzamos con estas interesantes iniciativas”.