Estoy muy triste. SOTA es solo una fachada; en el trabajo real, todavía hay que depender de "bueyes y caballos" (refiriéndose a empleados de alto rendimiento). Alex Atallah, el fundador de OpenRouter, acaba de tuitear que su versión más utilizada sigue siendo Kimi-K2-0711 (el Kimi-K2-Instruct de julio). Luego están openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b y openai-o3. Mi primer pensamiento fue: "¿Esta persona ha estado desconectada? ¿Hace tiempo que no usa un modelo nuevo y grande?". Pero al observar más de cerca, algo no cuadra. Así es como se debe usar a un Usuario Avanzado: ¡es tan realista! Si en este momento encontráramos uno que tenga un contexto suficientemente grande (128K), un rendimiento adecuado (SWE-Bench Verified > 65), fuertes capacidades de agente (Tau2-bench > 65), una amplia base de conocimiento (una cantidad considerable de parámetros) y un tiempo de respuesta rápido (no un modelo de pensamiento), parece que solo Kimi-K2-Instruct es adecuado. Trabajando a la inversa, el trabajo de Alex Atallah probablemente consiste principalmente en procesar documentos (contextos extensos, especialmente con el token de 13,4 millones), analizarlos mediante herramientas y generar informes (capacidades del agente). Kimi-K2-Instruct puede gestionar todo esto, y luego escribe scripts (con o4 y Claude-3.7-Sonnet como alternativas, o incluso empaquetándolos en agentes para que Kimi-k2 pueda llamar a estos modelos para escribir scripts). Finalmente, Kimi-k2 también cumple con el punto más importante: la privacidad de los datos. Dado que el modelo tiene ponderaciones abiertas, puede implementarse en sus propios servidores y no se filtrará información confidencial a OpenAI ni a Anthropic. Incluso la existencia de GPT-OSS-120B, que se menciona a continuación, también debería deberse a esta razón. Creo entender por qué los nuevos modelos a gran escala dependen ahora en gran medida de las capacidades de los agentes. El uso directo de la IA por parte de humanos es solo una etapa intermedia; los usuarios avanzados ya utilizan la IA para operar otras IA. Un modelo especializado en agentes, utilizado para enviar y recibir todo el contexto de la IA, será inevitablemente uno de los más utilizados. Publicación original:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

