Tomando decisões com informações imperfeitas nos laboratórios de IA de ponta. Siga @zpysky1125 - pesquisador principal da Minimax AI - criadores do M2, o modelo OSS líder atual e, até onde sei, o primeiro modelo de pensamento intercalado para OSS. O blog abaixo, de @zpysky1125, é um blog maravilhoso 💕 caso você tenha interesse em saber o que se passa na mente das pessoas que formam mestres em Direito (LLM) de última geração (SOTA). O texto discute os tipos de escolhas que lhes são apresentadas e como tomam decisões com informações imperfeitas. O problema é que não é possível executar muitos experimentos com treinamentos de LLM, pois cada execução é muito custosa. Isso difere do aprendizado de máquina convencional. Pengyu discute com muita honestidade o motivo pelo qual tiveram que descartar, ou melhor, deixar de lado, a inovação anterior de 'Atenção Linear' que usaram no modelo MiniMax M1, e retornar à 'Atenção Total' no M2. Eles abandonaram a árvore tecnológica que haviam inventado e tiveram que descartá-la com muita tristeza. Eles discutem isso com muita honestidade. É um assunto sincero. Pengyu discute as vantagens do caminho comprovado a curto prazo, mesmo que possa ser menos eficiente. Eles também abordam em que situações revisitariam a decisão sobre a Atenção Linear. Você aprenderá muito! Esta é uma visão rara da mentalidade dos tomadores de decisão nos laboratórios de vanguarda. Esperamos que haja mais compartilhamentos como este entre os laboratórios americanos. Escolha suas batalhas com sabedoria. Obrigado @Hailuo_AI e Pengyu (@zpysky1125) @dwarkesh_sp, @himanshustwts, por favor, convidem pesquisadores chineses (de laboratórios chineses) para o seu podcast 🇨🇳🇺🇸💕.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
