- ReDrafter ofrece 2,7 veces más tokens por segundo en comparación con la regresión automática tradicional
- ReDrafter puede reducir la latencia para los usuarios usando menos GPU
- Apple no ha dicho cuándo se implementará ReDrafter en las GPU de IA de la competencia de AMD e Intel.
Apple anunció una colaboración con Nvidia para acelerar la inferencia de modelos en lenguajes grandes utilizando su tecnología de código abierto, Recurrent Drafter (o ReDrafter para abreviar).
La asociación tiene como objetivo abordar los desafíos computacionales de la generación automática de tokens regresivos, que es esencial para mejorar la eficiencia y reducir la latencia en aplicaciones LLM en tiempo real.
Presentado por Apple en noviembre de 2024, ReDrafter adopta un enfoque de decodificación especulativa al combinar un modelo preliminar de red neuronal recurrente (RNN) con búsqueda de haz y atención dinámica de árbol. Las métricas de Apple muestran que este método genera 2,7 veces más tokens por segundo en comparación con la autorregresión tradicional.
¿Puede escalar más allá de Nvidia?
A través de su integración en el marco TensorRT-LLM de Nvidia, ReDrafter amplía su impacto al proporcionar una inferencia LLM más rápida en las GPU de Nvidia ampliamente utilizadas en entornos de producción.
Para adaptarse a los algoritmos de ReDrafter, Nvidia introdujo nuevos operadores y modificó los existentes dentro de TensorRT-LLM, poniendo la tecnología a disposición de cualquier desarrollador interesado en optimizar el rendimiento para modelos a gran escala.
Además de las mejoras de velocidad, Apple dice que ReDrafter tiene el potencial de reducir la latencia del usuario y requiere menos gráficos GPU. Esta eficiencia no solo reduce los costos computacionales sino que también reduce el consumo de energía, un factor esencial para las organizaciones que gestionan implementaciones de IA a gran escala.
Si bien el enfoque de esta colaboración sigue estando en la infraestructura de Nvidia por ahora, es posible que beneficios de rendimiento similares se extiendan a las GPU de AMD o Intel de la competencia en algún momento en el futuro.
Avances como este pueden ayudar a mejorar la eficacia del aprendizaje automático. Como dice Nvidia, “Esta colaboración ha hecho que TensorRT-LLM sea más potente y flexible, lo que permite a la comunidad LLM innovar en modelos más sofisticados e implementarlos fácilmente con TensorRT-LLM para lograr un rendimiento sin precedentes en las GPU de Nvidia. Estas nuevas funciones abren posibilidades interesantes. Y anticipamos con impaciencia la próxima generación de modelos avanzados de la comunidad que aprovechan las capacidades de TensorRT-LLM y aportan más mejoras. en el área de cargas de trabajo LLM.”
Puedes leer más sobre la colaboración con Apple en Blog técnico para desarrolladores de Nvidia.