X (Twitter)

Traduzido do tweet do autor Cline: Por que Cursor e Windsurf optaram por lançar modelos "otimizados para velocidade" em vez de buscar maior inteligência? Para empresas como a Cursor e a Windsurf, lançar um modelo focado na otimização de velocidade é claramente mais prático do que construir um modelo fundamental do zero que ultrapasse os limites da inteligência artificial. Por que digo isso? Imagine o seguinte: 1. Primeiro, utilize o modelo de código aberto Qwen3 e ajuste-o diretamente usando aprendizado por reforço (RL) em seu próprio ambiente de tarefa. 2. Em seguida, implemente o modelo ajustado no Cerebras ou em outro hardware de GPU otimizado. 3. Em seguida, vamos fazer com que este modelo "médio", inteligente, mas super rápido, funcione sem problemas (cozinhar). Em contrapartida, construir um modelo fundamental completamente novo do zero representa um nível de dificuldade totalmente diferente. Isso envolve não apenas investimentos financeiros maciços e desenvolvimento de talentos a longo prazo, mas também uma série de riscos imprevisíveis. Para empresas que desenvolvem agentes de codificação de IA, o verdadeiro valor que agregam ao mercado reside no aprimoramento e na otimização da inferência em modelos de código aberto já existentes. Francamente, essa abordagem é precisamente uma estratégia eficiente — ela se aproxima o máximo possível da fronteira de Pareto de velocidade e inteligência com custos mínimos de recursos. Fico feliz em ver empresas de IA baseadas em código começando a entrar nesse campo; é sem dúvida um sinal positivo para o setor. No entanto, é importante ressaltar que isso não significa que as empresas de IA baseada em código estejam afirmando que "inteligência mediana, mas velocidade rápida" é melhor do que "alta inteligência, mas velocidade lenta". Afinal, diferentes cenários têm diferentes requisitos de inteligência e velocidade.

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread