L'IA redéfinit l'apparence des puces. Les puces déterminent également les limites de l'intelligence artificielle. On distingue trois tendances : 1. Du généraliste au spécialisé. Auparavant, tout le monde utilisait des GPU à usage général pour exécuter des IA. Cependant, on découvre aujourd'hui que cela pose problème pour l'inférence, l'entraînement et le déploiement en périphérie des grands modèles. La logique de conception des puces est complètement différente. Je pense que nous verrons davantage de puces dédiées à l'IA dans les 3 à 5 prochaines années. Par exemple, les puces d'entraînement doivent avoir une puissance de calcul élevée, les puces d'inférence doivent économiser de l'énergie et les puces périphériques doivent avoir une faible latence. Nvidia différencie désormais également ses gammes de produits, avec la série H pour l'entraînement et la série L pour l'inférence. Les entreprises nationales comme Biren et Suiyuan recherchent elles aussi un positionnement différencié. À l'avenir, il n'y aura plus d'acteur dominant ; il y aura plutôt un paysage où « des rois en devenir, des maîtres de la déduction et des joueurs dans des jeux côté client ». 2. Percée dans le calcul en mémoire, résolvant le problème du mur de la mémoire. Le principal obstacle pour les modèles à grande échelle n'est plus la puissance de calcul, mais le transfert de données. La puce doit constamment lire des données en mémoire, effectuer des calculs, puis les réécrire, ce qui est trop lent et consomme trop d'énergie. L'informatique en magasin combine calcul et stockage, éliminant ainsi la nécessité de transférer les données entre les deux points de vente. Si cette technologie parvient à percer, elle aura un impact considérable sur l'IA. L’université Tsinghua, l’Académie chinoise des sciences et quelques start-ups travaillent toutes dans ce sens. Si les puces informatiques à mémoire intégrée peuvent être produites en masse dans les 3 à 5 prochaines années... Cela permettra de réduire d'un ordre de grandeur le coût d'inférence des grands modèles, rendant possible à l'avenir de nombreuses applications actuellement impossibles à mettre en œuvre. 3. La puce et l'algorithme sont optimisés ensemble. Auparavant, les ingénieurs en algorithmes écrivaient du code et les ingénieurs en puces fabriquaient des puces ; ils faisaient leur propre truc. Mais aujourd'hui, de nombreuses entreprises pratiquent la conception collaborative. L'algorithme connaît les caractéristiques de la puce, et la puce est optimisée pour l'algorithme. Apple en est un exemple ; son moteur neuronal et les fonctionnalités d’IA d’iOS sont conçus conjointement, ce qui permet une exécution très fluide des modèles d’IA sur l’iPhone. La puce FSD de Tesla est identique ; elle est personnalisée pour les algorithmes de conduite autonome. Sur le plan intérieur, Huawei est considéré comme ayant obtenu de meilleurs résultats à cet égard. La puce Ascend est intégrée au grand modèle Pangu et au système HarmonyOS. À l'avenir, cette capacité intégrée de matériel et de logiciel deviendra un avantage concurrentiel fondamental.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.