Je ne comprends vraiment pas comment les travaux de Beff accélèrent l'entraînement des modèles. Certes, un échantillonnage très bon marché à partir du bruit thermodynamique. Mais en quoi cela nous aide-t-il à entraîner un modèle EBM pour approximer la variété de données réelle ? Est-ce réellement le cas, ou s'agit-il simplement d'une astuce d'inférence ? Je ne comprends pas les détails de cet article.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
