X (Twitter)

Na verdade, acho que treinei o primeiro LLM histórico de todos os tempos: nosso modelo de correção OCR, o Ocronos, foi totalmente pré-treinado e bloqueado para dados anteriores a 1950, podendo ser usado no modo de modelo base. A maioria das fontes utilizadas eram jornais do Chronicle of America.

Exemplo de geração historicamente ancorada (o modelo não tem a mínima ideia de quem é Trump e regride ao início do século XX). Vejo que esse modelo ainda é pohuggingface.co/PleIAs/OCRonos…co/1ye5VEGerd

Ted Underwood e outros também treinaram um GPT-1914, que pode muito bem ser o maior modelo histórico até hoje (quase 800 arxiv.org/pdf/2505.00030wSA1WCmz2D

Thread de Alexander Doria (@Dorialexander)

Informações do autor

Conteúdo da thread