Un cadeau rare et très intéressant d'OpenAI. En principe, les modèles à activation intrinsèquement parcimonieuse avec de grandes dimensions nominales sont préférables aux modèles MoE avec leurs experts isolés et peu compétents. La communication entre experts entre les couches pourrait toutefois constituer une autre voie possible.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
