X (Twitter)

Novo vídeo lançado – GGUF > MLX? Teste com múltiplas imagens mostra como escolher a conexão local mais estável para Qwen3-VL | llama.cpp A nova interface web é realmente ótima! Desta vez, estamos devolvendo a culpa pelo "modelo impreciso"! O problema não era que o Qwen3-VL fosse ruim, mas sim que a cadeia de ferramentas e a versão apresentavam problemas. O que você vai ganhar com esta edição: - Como começar rapidamente a usar a nova interface web em llama.cpp (instalação, inicialização e visão geral completa dos recursos) - Comparação multiscenário do Qwen3-VL 32B/A3B com o Gemini 2.5 Flash e o Claude Sonnet 4 - As verdadeiras diferenças entre GGUF e MLX: OCR/caixas delimitadoras/imagens longas/reflexos/layouts complexos, etc. - Os novos recursos que aumentam a produtividade incluem o modo JSON, PDF como imagem, suporte embutido a HTML/JS e entrada de parâmetros de URL (nova interface de usuário da Web em llama.cpp). Minha observação: - Localmente, o GGUF (GGML/Unsloth/Qwen) é preferido; a nova interface web em llama.cpp proporciona uma excelente experiência ao usuário. O modelo 32B é mais estável e preciso na maioria dos cenários, o A3B Instruct é rápido, mas apresenta diferenças em diferentes situações, e o modelo de pensamento 4B é o mais adequado. - A quantização MLX apresenta problemas de precisão/caixa delimitadora, que a comunidade está trabalhando para corrigir. Vídeo completo: 🧵

youtu.be/G5FcWw08Tz8

Thread de nicekate (@nicekate8888)

Informações do autor

Conteúdo da thread