X (Twitter)

A Alibaba lançou um novo modelo de código aberto, o QwenLong-L1.5, que apresenta gerenciamento de contexto e memória ultralongo. Seu desempenho é, em média, 9,9 pontos percentuais superior ao do Qwen3-30B-A3B-Thinking. É como se você pudesse inserir um manual inteiro, um relatório financeiro completo e disposições legais, tudo de uma vez, e deixar que o programa lide com perguntas e respostas entre os capítulos, escreva resumos e extraia cláusulas. O QwenLong-L1.5 é baseado no Qwen3-30B-A3B-Thinking e introduz um mecanismo de memória que permite lidar com tarefas que excedem em muito o comprimento da janela de contexto físico. Uma solução completa de código aberto para pós-treinamento de modelos L1.5 com raciocínio de contexto longo e gerenciamento de memória, unificando síntese de dados, métodos de treinamento e arquitetura de agentes. #QwenLongL15 #LongContextModel

github：github.com/Tongyi-Zhiwen/…

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread