« Les modèles MoE excellent dans les tâches de connaissance du monde, mais égalent les modèles denses en matière de raisonnement lorsque la perplexité est fixée. » Cela paraît logique intuitivement, mais est-ce valable pour des MoE plus précis ? Le raisonnement est naturellement parcimonieux : il suffit de combiner quelques opérations de faible rang.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

