Sim. É mais ou menos assim que eu imagino que seja o Gemini. Embora eu imagine que o Gemini-Pro seja ainda maior (>3T) e mais esparso (<50B ativo, talvez 30B; este supostamente é 72B). Eles devem obter um desempenho muito melhor com um pós-treinamento aprimorado. Agradeço aos laboratórios fechados por compartilharem seus dados de escala.
> 2,4 bilhões, <3% ativos. Portanto, 72 bilhões é o limite superior, e provavelmente está em torno de 60 bilhões. Talvez seja possível estimar com mais precisão se analisarmos a economiax.com/Baidu_Inc/stat…s com dados de GPU.