Confirmado! O novo modelo da Windsurf, o SWE-1.5, parece mais com o GLM-4.5! Anteriormente, circularam rumores online de que empresas do Vale do Silício haviam começado a modificar extensivamente modelos open-weight desenvolvidos internamente. Os rumores mais proeminentes eram de que o Composer-1 da Cursor havia sido modificado usando o DeepSeek (para pós-treinamento ou ajuste fino) e que o SWE-1.5 da Windsurf havia sido modificado usando o GLM-4.6. A anterior está praticamente confirmada, mas esta ainda não foi verificada. Então, vamos propor um desafio a todos: vejam a qual modelo este modelo se assemelha mais ao realizar o agrupamento com base em suas características de saída. Modifiquei o Slop-Forensics e analisei as impressões digitais linguísticas do SWE-1.5 e de outros modelos domésticos de grande escala. Os resultados foram inesperados: Pertence ao mesmo cluster que o GLM-4.5, e não ao GLM-4.6 como se especulava anteriormente! Considerando que um modelo precisa ser treinado por um período de tempo, mesmo quando se utilizam outros modelos base, para alcançar bons resultados, é de fato mais provável que seja o GLM-4.5 (lançado em 28 de julho) do que o GLM-4.6 (lançado em 1º de outubro). É uma pena que não tenha sido treinado com GLM-4.6, haha. Acho que treinar com GLM-4.6 como modelo base seria ainda mais poderoso, ou estou certo? SWE-1.5 corresponde a GLM-4.5 e SWE-1.6 corresponde a GLM-4.6? Além disso, a Cerebras (provedora de serviços de computação em nuvem para o Windsurf, modelo SWE-1.5) decidiu usar o GLM-4.6 como modelo padrão recomendado. Considerando o desempenho do GLM-4.6 nos testes (SWE-Bench 68%, LiveCodeBenchV6 82,8%), estimo que o próximo modelo provavelmente também utilizará o GLM-4.6. Os kits de modelos em grande escala fabricados localmente são incríveis! Aliás, deixe-me explicar os princípios por trás do projeto Slop-Forensics: • Analise a frequência de uso do vocabulário e os padrões de repetição de frases para cada modelo. • Converta esses "hábitos linguísticos" em vetores de características. • Construa uma árvore filogenética usando algoritmos de agrupamento; proximidade equivale a padrões linguísticos semelhantes. Assim como na identificação por impressões digitais, mesmo que modelos diferentes produzam o mesmo conteúdo, suas preferências de vocabulário subjacentes e métodos de combinação de frases revelarão a similaridade dos dados de treinamento ou da arquitetura. SWE-1.5 e GLM-4.5 estão agrupados de forma compacta na árvore, indicando que são: A seleção de palavras de alta frequência e a distribuição da complexidade lexical em combinações de frases binárias/ternárias são altamente consistentes nessas dimensões. Essa similaridade é difícil de simular — ela está enraizada na estrutura profunda do modelo. Minha versão modificada: https://t.co/s5h62S9apS #EspectroInteligente #GLM #Cursor #windsurf #cérebros #ModeloDomésticoDeGrandePorte #ProgramaçãoIA
Como eu verifiquei isso?
Princípio de Verificação
para concluir









