Não sei por que os mecanismos de inferência do sistema operacional ainda apresentam esse problema em praticamente todos os modelos, em taxas variáveis — estou usando o GLM 4.6 e há 23 amostras desse tipo em 10.000 — através do OpenRouter, então o problema pode ser do vllm ou do sglang... O problema já dura 2 anos, enquanto que em fóruns como gpt/claude, etc., vi algo parecido apenas 2 ou 3 vezes em mais de 500 mil respostas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
