WeChat AI, Tencent Inc Acho que o CALM é o DeepSeekOCR/Glyph feito da maneira correta. Você não precisa de "tokens de visão", a parte funcional é a codificação em vetores latentes. Mas eles vão além de simplesmente adicionar um autoencoder. «Nosso trabalho prioriza a criação de uma variedade latente robusta e suave»
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

