Nuevo vídeo publicado: ¿GGUF > MLX? Una prueba con varias imágenes te muestra cómo elegir la conexión local más estable para Qwen3-VL | llama.cpp ¡La nueva interfaz web es realmente genial! ¡Esta vez, devolvemos la culpa por el "modelo inexacto"! No es que Qwen3-VL fuera malo, sino que la cadena de herramientas y la versión eran problemáticas. Lo que obtendrás en este número: - Cómo empezar rápidamente con la nueva interfaz web en llama.cpp (instalación, puesta en marcha y descripción general de todas las funciones) - Comparación en múltiples escenarios de Qwen3-VL 32B/A3B con Gemini 2.5 Flash y Claude Sonnet 4 - Las diferencias reales entre GGUF y MLX: OCR/cuadros delimitadores/imágenes largas/reflejos/diseños complejos, etc. - Las nuevas funciones que mejoran la productividad incluyen el modo JSON, PDF como imagen, compatibilidad con HTML/JS en línea y entrada de parámetros de URL (nueva interfaz de usuario web en llama.cpp). Mi observación: - A nivel local, se prefiere GGUF (GGML/Unsloth/Qwen); la nueva interfaz web en llama.cpp proporciona una excelente experiencia de usuario. - El modelo 32B es más estable y preciso en la mayoría de los escenarios, el modelo A3B Instruct es rápido pero presenta diferencias según el escenario, y el modelo de pensamiento 4B es el modelo óptimo. - La cuantización MLX presenta problemas de precisión/cuadro delimitador, en los que la comunidad está trabajando para solucionarlos. Vídeo completo: 🧵
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
