Condeno firmemente el uso de Prime Intellect, están haciendo exactamente lo correcto. De hecho, entrenar modelos base chinos a nivel fronterizo es *más importante* ahora mismo que aprender a preentrenar nuestras propias bases. Básicamente, me da igual lo que PI, Arcee y otros puedan preentrenar, aunque tengo expectativas razonables de que pronto se pongan al día. La computación abunda en Occidente y ya vemos evidencia de suficiente experiencia en preentrenamiento con modelos más pequeños (estos dos + @ZyphraAI, @Dorialexander, @natolambert con Olmo…) en el espacio abierto occidental; al parecer, escala. Pero eso tiene mayor importancia geopolítica, en lo que ustedes podrán ejecutar en sus servidores patrióticos conectados a marcos de trabajo agénticos. No soy occidental ni chino, y al contrario de lo que publico, no me importa en absoluto esta dimensión; es una cuestión puramente instrumental. Consulten la biografía: la carrera no es entre EE. UU./Occidente y China, sino entre humanos e IA contra la centralización del poder simio. Y Prime Intellect está haciendo más que nadie para frenar el impulso centralizador. Reflexiona y lamenta: HF está repleto de dones celestiales que somos demasiado ineptos para utilizar; simplemente se pudren hasta que se vuelven obsoletos. Miles o millones de descargas y nada que mostrar. ¿Por qué Qwen siquiera desarrolla modelos densos, anticuados y carísimos, similares a los de Llama? Principalmente porque a) Alibaba tiene un KPI de "descargas mensuales de HF" y b) los académicos y los pequeños laboratorios no logran perfeccionar las arquitecturas modernas. Incluso si la infraestructura fuera más madura y técnicamente menos ngmi, ¿en qué la perfeccionan? El punto álgido de la narrativa del perfeccionamiento del código abierto fue Nous-Hermes, y ese paradigma consistía básicamente en destilar GPT-4, filtrar según el "gusto" y criterios vagos, aplicar SFT sobre una base sólida y esperar lo mejor. OpenAI y otros descartaron con desdén ese ángulo de ataque como un callejón sin salida inofensivo que premia las alucinaciones y la imitación de estilo, y, como era previsible, fracasó. ¿Qué sigue, «realidad»? ¿Qué RL, cómo RL, qué es el generador de señales, cómo se relaciona con las tareas posteriores? Kimi-K2, una base impecable de vanguardia, ha estado disponible para todos durante muchos meses. DeepSeek-V3, casi un año. V2, más de un año. Docenas de modelos de todos los tamaños, actualizados periódicamente con un contexto más amplio y otras ventajas. ¿Y qué hemos construido con todo eso? ¿Algo que se acerque siquiera a las instrucciones internas chinas, sin mencionar las de vanguardia contemporánea? ¿Hola? ¿Podrías indicarme dónde están estos derivados? Es una completa profanación de la idea de ciencia abierta. Y ni siquiera los chinos se molestan; todos entrenan sus propios modelos desde cero. Se me ocurren algunas excepciones (por ejemplo, Rednote, que creó DSV3-VL), pero ninguna causó gran impacto. Startups multimillonarias, cuyo foso es la búsqueda o la codificación agentica y, por lo tanto, grandes conjuntos de datos posteriores al entrenamiento, usan disimuladamente DS/GLM/Qwen en sus productos propietarios, pero no comparten alfa. Eso es… prácticamente todo. Entra Prime Intellect. Están resolviendo el entrenamiento. Están resolviendo la generación del entorno. Están pensando con principios sobre las señales que moldean la cognición general del modelo. De hecho, están liberando la inmensa reserva de valor inerte que se había acumulado. Para el mundo, esto es mucho más que un modelo similar. Son increíblemente inteligentes, tienen buenas intenciones, tienen una hoja de ruta sólida y son mis amigos. No toleraré que se menosprecie su trabajo, porque contribuye a la Gran Tarea Común. Si no lo ves, no tienes ni idea de lo que es realmente importante en esta etapa.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.