Je m'attends à ce qu'ils 1) approfondissent considérablement la compression et le calcul latent, à la manière de ZAYA, et 2) augmentent significativement la parcimonie, peut-être en abandonnant complètement les MoE, en travaillant directement avec des circuits à petit monde ou en explorant une approche similaire à UT. Si ce n'est pas dans la V4, ce sera dans les prochains articles.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.