Condeno veementemente as críticas à Prime Intellect; eles estão fazendo exatamente a coisa certa. O pós-treinamento de modelos básicos chineses até o nível de vanguarda é, na verdade, *mais importante* agora do que aprender a pré-treinar nossos próprios modelos básicos. Basicamente, não me importo com o que o Prime Intellect, o Arcee e outros conseguem pré-treinar, embora eu tenha expectativas razoáveis de que eles alcancem esse nível em breve. O poder computacional é abundante no Ocidente e já vemos evidências de expertise suficiente em pré-treinamento com modelos menores (estes dois + @ZyphraAI, @Dorialexander, @natolambert com Olmo…) no espaço aberto ocidental; tudo indica que é escalável. Mas isso se refere principalmente à… importância geopolítica, ao que vocês poderão executar em seus servidores patrióticos conectados a frameworks de agentes. Não sou ocidental nem chinês e, ao contrário do que afirmei na minha postagem, não me importo profundamente com essa dimensão; é uma questão puramente instrumental. Consulte a biografia: a corrida não é entre os EUA/Ocidente e a China, mas entre humanos e IAs (Inteligências Inteligentes Avançadas) versus a centralização do poder dos macacos. E o Prime Intellect está fazendo mais do que qualquer outro para deter essa tendência de centralização. Reflita e lamente: o HF está repleto de dádivas celestiais que somos incapazes de utilizar; elas simplesmente apodrecem lá até se tornarem obsoletas. Milhares ou milhões de downloads e nada para mostrar. Por que o Qwen ainda usa modelos densos antiquados e caríssimos, semelhantes ao Llama? Principalmente porque a) o Alibaba tem um indicador-chave de desempenho (KPI) de "downloads mensais do HF" e b) acadêmicos e pequenos laboratórios não conseguem descobrir como otimizar arquiteturas modernas. Mesmo que a infraestrutura fosse mais madura e eles menos tecnicamente incompetentes, em que usariam para otimizar? O ápice da otimização de código aberto foi o Nous-Hermes, e esse paradigma consistia basicamente em destilar o GPT-4, filtrar de acordo com "gosto" e critérios vagos, aplicar SFT sobre uma base sólida e torcer para que desse certo. Essa abordagem foi desdenhosamente descartada pela OpenAI e outras como um beco sem saída inofensivo que recompensa alucinações e imitação de estilo, e, previsivelmente, fracassou. E agora, «RL»? O que é RL, como funciona o RL, qual é o gerador de sinal e como ele se interconecta com as tarefas subsequentes? O Kimi-K2, uma base impecável de vanguarda, está disponível para todos há muitos meses. O DeepSeek-V3, há quase um ano. O V2, há mais de um ano. Dezenas de modelos de todos os tamanhos, atualizados periodicamente com contexto mais amplo e outras vantagens. E o que construímos com tudo isso? Algo que sequer se aproxime dos modelos internos chineses, quanto mais dos modelos de ponta contemporâneos? Alô? Pode me indicar esses derivados? É uma completa profanação da ideia de ciência aberta. E nem mesmo os chineses se dão ao trabalho; eles simplesmente treinam seus próprios modelos do zero. Consigo pensar em algumas poucas exceções (como a Rednote criando o DSV3-VL), mas nenhuma delas causou grande impacto. Startups que valem bilhões, cujo diferencial competitivo é a busca ou a programação ética e, portanto, grandes conjuntos de dados pós-treinamento, usam sorrateiramente DS/GLM/Qwen em seus produtos proprietários, mas não compartilham a versão alfa. É... basicamente isso. Apresento-lhes a Prime Intellect. Eles estão resolvendo o treinamento. Estão resolvendo a geração de ambientes. Estão pensando de forma fundamentada sobre os sinais que moldam a cognição do modelo geral. Estão, na prática, desbloqueando o imenso acervo de valor inerte que havia sido acumulado. Para o mundo, isso é muito mais do que apenas mais um modelo genérico. Eles são incrivelmente inteligentes, têm boas intenções, um plano sólido e são meus amigos. Não tolerarei que menosprezem o trabalho deles, porque ele serve ao Grande Objetivo Comum. Se você não enxerga isso, não tem a menor ideia do que é realmente importante neste momento.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.