Estou muito triste. O SOTA é só para inglês ver; quando se trata de trabalho de verdade, você ainda precisa contar com "bois e cavalos" (referindo-se a funcionários de alto desempenho). Alex Atallah, o fundador do OpenRouter, acaba de twittar que a versão que ele mais usa ainda é a Kimi-K2-0711 (a Kimi-K2-Instruct de julho). Existem também o openai-o4-mini-high, o Claude-3.7-Sonnet, o gpt-oss-120b e o openai-o3. Meu primeiro pensamento foi: "Essa pessoa esteve offline? Faz tempo que ela não usa um modelo novo e grande?" Mas, ao analisar mais de perto, percebe-se que algo está errado. Esta é a verdadeira maneira de usar um Usuário Avançado — é tão realista! Se encontrássemos, neste momento, um modelo que tivesse um contexto suficientemente amplo (128 mil), desempenho adequado (verificado no SWE-Bench > 65), fortes capacidades de agente (Tau2-bench > 65), uma vasta base de conhecimento (um número considerável de parâmetros) e tempo de resposta rápido (não um modelo de pensamento), pareceria que apenas o Kimi-K2-Instruct seria adequado. Analisando o trabalho de Alex Atallah, provavelmente se concentra principalmente no processamento de documentos (contextos longos, especialmente com o token 13.4M), na análise desses documentos usando ferramentas e na geração de relatórios (recursos do Agente). O Kimi-K2-Instruct consegue lidar com tudo isso, e então ele escreve scripts (com o4 e Claude-3.7-Sonnet como alternativas, ou até mesmo os empacotando em agentes para que o Kimi-K2 possa chamar esses modelos para escrever os scripts). Por fim, o Kimi-k2 também satisfaz o ponto mais importante: a privacidade dos dados. Como o modelo possui pesos abertos, ele pode ser implementado em servidores próprios, sem que informações sensíveis sejam vazadas para a OpenAI ou a Anthropic. A própria existência do GPT-OSS-120B, mencionado abaixo, deve-se a esse motivo. Acho que entendi por que os novos modelos de grande escala dependem tanto das capacidades dos agentes. O uso direto da IA por humanos é apenas um estágio intermediário; usuários avançados já utilizam IA para operar outras IAs. Um modelo especializado em agentes, usado para enviar e receber todo o contexto da IA, inevitavelmente estará entre os mais utilizados. Postagem original:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

