Cheguei um pouco atrasado, mas li o artigo do DeepSeek Math v2. Este é o primeiro e único trabalho que replica o sucesso observado em softwares proprietários, como o IMO Gold, utilizando grandes modelos de linguagem. Não há muitas novidades por aqui. Se eu tivesse que dizer o que mais se destaca, seria: > simplesmente a ideia de que recompensar respostas não garante um processo de raciocínio correto Então, treinamos um verificador com base em dados avaliados por especialistas de 17,5 mil pessoas. > Treinamos um meta-verificador para garantir ainda mais que o verificador não esteja atribuindo notas incorretamente. Na verdade, é tão simples quanto parece, e uma parte de mim esperava que o modelo de código aberto IMO Gold usasse algo mais sofisticado. Eu tinha algumas teorias favoritas que queria ver validadas ou refutadas, mas suponho que, quando passarmos para modelos generalistas com tais capacidades, veremos isso acontecer. Até lá, é uma grande estrela guia com uma abordagem bastante simples, mas que exige muito poder computacional e depende da curadoria de dados, e que nos permite alcançar algo que era considerado incrivelmente difícil para modelos até o ano passado.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
