X (Twitter)

새 영상 공개 - GGUF > MLX? 다중 이미지 테스트를 통해 Qwen3-VL에 가장 안정적인 로컬 연결을 선택하는 방법을 알아보세요 | llama.cpp 새로운 웹 UI 정말 멋지네요! 이번에는 "부정확한 모델"에 대한 책임을 우리에게 돌려주겠습니다! Qwen3-VL이 나쁜 것은 아니지만, 툴체인과 버전에 문제가 있었습니다. 이번 호에서 얻을 수 있는 내용: - llama.cpp에서 새로운 웹 UI를 빠르게 시작하는 방법(설치, 시작 및 전체 기능 개요) - Qwen3-VL 32B/A3B와 Gemini 2.5 Flash 및 Claude Sonnet 4의 다중 시나리오 비교 - GGUF와 MLX의 실제 차이점: OCR/경계 상자/긴 이미지/반사/복잡한 레이아웃 등. - 생산성을 높여주는 새로운 기능으로는 JSON 모드, 이미지로 PDF 변환, HTML/JS 인라인 지원, URL 매개변수 입력(llama.cpp의 새로운 웹 UI) 등이 있습니다. 내 관찰: - 로컬에서는 GGUF(GGML/Unsloth/Qwen)가 선호됩니다. llama.cpp의 새로운 웹 UI는 뛰어난 사용자 경험을 제공합니다. - 32B는 대부분의 시나리오에서 더 안정적이고 정확하며, A3B Instruct는 빠르지만 시나리오에 따라 차이가 있으며, 4B 사고 모델이 가장 적합한 모델입니다. - MLX 양자화에는 정확도/경계 상자 문제가 있으며, 커뮤니티에서 이를 해결하기 위해 노력하고 있습니다. 전체 영상: 🧵

youtu.be/G5FcWw08Tz8

nicekate(@nicekate8888)의 스레드

작성자 정보

스레드 내용