X (Twitter)

"Não há nada de interessante no arXiv atualmente!" - as palavras de uma mente sem curiosidade Pessoalmente, fiquei impressionado com a quantidade de artigos interessantes publicados nos últimos meses e acompanho com entusiasmo os resumos diários. Aqui estão alguns artigos que eu mais gostei: - Pré-treinamento sob computação infinita (setembro de 2025, https://t.co/3Q838oO6ei) - Recém-conforme a memória: A recência da ordem de treinamento é codificada linearmente nas ativações do modelo de linguagem (setembro de 2025, https://t.co/V9qCttiFPJ) - Aprendizagem subliminar: Modelos de linguagem transmitem características comportamentais por meio de sinais ocultos nos dados (julho de 2025, https://t.co/eJrGChfq1d) - Limitações de memória do ajuste rápido em transformadores (setembro de 2025, https://t.co/AJR17dkVUx) - Identificação Comportamental de Grandes Modelos de Linguagem (setembro de 2025, https://t.co/ZdHMlIdcYP) - Aprendizado autônomo de idiomas para treinamento sem consumo de dados (setembro de 2025, https://t.co/9kLvY8dNbe) - A ilusão dos retornos decrescentes: Medindo a execução de longo prazo em LLMs (setembro de 2025, https://t.co/X7bwtKE8xe) - As descrições em linguagem natural das ativações do modelo transmitem informações privilegiadas? (Setembro de 2025, https://t.co/4qjWhFJVUG) - Além da tabela de classificação: Compreendendo as disparidades de desempenho em grandes modelos de linguagem por meio da comparação de modelos (setembro de 2025, https://t.co/2ejyGDCSVF) - Ativações estocásticas (setembro de 2025, https://t.co/1xoXmLeIiF) - PonderLM-2: Pré-treinamento de LLM com Pensamentos Latentes no Espaço Contínuo (setembro de 2025, https://t.co/gZW50tvCIK) - Palavras que fazem os modelos de linguagem perceberem (outubro de 2025, https://t.co/IDQEXdeAGv) - Os modelos de linguagem não incorporam números continuamente (outubro de 2025, https://t.co/g8Cw3yNcoV) - Aprendendo fatos em grande escala com leitura ativa (agosto de 2025, https://t.co/aw3fE8dKiJ) - OverFill: Modelos de dois estágios para decodificação eficiente de modelos de linguagem (agosto de 2025, https://t.co/Wku5FXbGEz) - As capacidades de recuperação de grandes modelos de linguagem escalam com FLOPs de pré-treinamento (agosto de 2025, https://t.co/TWgqTCHjuZ) - Regressão com uso intensivo de raciocínio (agosto de 2025, https://t.co/2G8Lxn323A) - Observe os pesos: Monitoramento e controle não supervisionados de LLMs ajustados com precisão (agosto de 2025, https://t.co/im0qdNorNQ) - Sobre as limitações teóricas da recuperação baseada em embeddings (agosto de 2025, https://t.co/7haVnfNpTp)

Thread de Jack Morris (@jxmnop)

Informações do autor

Conteúdo da thread