El diablo está en la plantilla de chat ========================= Papas y potahtoes no son lo mismo, al contrario de lo que Phoebe Buffay quiere hacerte creer. Este blog es de lectura obligatoria si te quita el sueño la AGI o si simplemente trabajas en la implementación de modelos de IA de código abierto. Si eres un experto en "seguridad de la IA" y no entiendes este blog, no estás cualificado para opinar sobre el tema. Como se suele decir, lee un libro. Ahora que he terminado de despotricar, quiero decirles que este blog les contará todas las cosas que pueden salir mal y que podrían hacer que su modelo de frontera sea "ESTÚPIDO". La inferencia LLM es muy frágil. El motor de inferencia debe presentar la entrada en un formato estricto (plantilla de chat) al LLM. Si se desvía un poco, los resultados no serán óptimos. Al menos, reducirá tu ansiedad ante la IAG: la tecnología no va a ser Skynet. Gracias a @vllm_project y a Lilian Weng. Aquí narran cómo trabajaron en los comentarios del equipo de Kimi para mejorar la tasa de éxito de las llamadas a la herramienta para el modelo Kimi k2 que se ejecuta en vLLM hasta casi el 100 %. Lo hicieron muy rápido tras recibir los comentarios. ¡Enhorabuena! Agradecemos enormemente vuestro servicio a la comunidad. 🧡💕 Lección clave (citando) El diablo está en la plantilla de chat: La plantilla de chat es el enlace crucial entre un modelo y su framework de servicio. Al integrar un nuevo modelo, valide meticulosamente cada parte de la lógica de su plantilla con respecto a los comportamientos y supuestos específicos del framework. Elimina la capa de abstracción: Las API de alto nivel como `/chat/completions` son convenientes, pero pueden ocultar las causas raíz. Al depurar, no dudes en usar endpoints de nivel inferior como `/completions`. Construir manualmente la entrada es una técnica eficaz para aislar el problema. Un consejo profesional: Los ID de token son la prueba definitiva: Para los problemas más sutiles, inspeccionar la secuencia final de ID de token enviada al modelo es la única forma de estar seguro. Si bien no necesité recurrir a esto para los problemas anteriores, es una herramienta fundamental. Técnicas como usar la API compatible con OpenAI para obtener los ID de token pueden ser cruciales. Para quienes estén interesados, también lo mencionamos en nuestra publicación sobre Agent Lightning. Comprender la filosofía de diseño del framework: El estricto manejo de **kwargs por parte de vLLM no es un error, sino una decisión de seguridad deliberada. Comprender estas decisiones de diseño ayuda a identificar rápidamente la causa raíz en lugar de quedarse atascado ante un comportamiento inesperado. El desafío del ecosistema abierto: Funcionalidades avanzadas como la herramienta "Enforcer" son características distintivas de servicios propietarios de alta calidad. Implementar estas capacidades de forma robusta y elegante en proyectos de código abierto como vLLM es un desafío crucial que la comunidad debe abordar.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.