WeChat AI, Tencent Inc Creo que CALM es DeepSeekOCR/Glyph bien implementado. No se necesitan «tokens de visión»; lo que funciona es la codificación a vectores latentes. Pero van más allá de simplemente añadir un autoencoder. «Nuestro trabajo prioriza la creación de una variedad latente robusta y continua».
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

