À ce propos, je soupçonne que la V4 sera très différente. La solution que nous connaissons, DS-MoE, date d'il y a deux ans ; ils l'ont simplement étendue, ont changé d'approche à deux reprises (MHA → MLA → prototype DSA), et ont peaufiné le protocole MTP, le routage et l'équilibrage de charge. Ils sont tout à fait capables d'un changement bien plus important.
Je m'attends à ce qu'ils 1) approfondissent considérablement la compression et le calcul latent, à la manière de ZAYA, et 2) augmentent significativement la parcimonie, peut-être en abandonnant complètement les MoE, en travaillant directement avec des circuits à petit monde ou en explorant une approche similaire à UT. Si ce n'est pas dans la V4, ce sera dans les prochains articles.