소규모 VLM + 사용자 정의 데이터 세트 미세 조정은 GPT-5와 거의 동일하지만 50배 더 저렴합니다! @LiquidAI의 멤버인 @paulabartabajo가 AI 엔지니어를 위한 실질적인 조언을 제공합니다. 핵심 메시지는 특정 작업이나 도메인에 대해 작은 시각 언어 모델(VLM)을 사용하고 맞춤형 데이터세트에 맞춰 미세 조정하면 GPT-5와 같은 대형 범용 모델과 유사한 정확도를 달성하는 동시에 비용을 크게 절감(약 50배)할 수 있다는 점을 강조합니다. 이는 AI 개발의 효율성 우선 원칙을 반영합니다. 작은 모델은 특수 시나리오에 더 경제적이고 배포하기 쉬우며, 미세 조정을 통해 목표에 맞는 성능 최적화를 달성하고 대형 모델의 리소스 낭비를 방지할 수 있습니다. 이 오픈소스 프로젝트는 Liquid AI Foundation Model(LFM)과 LEAP SDK를 사용하여 구축된 다양한 튜토리얼, 예제 및 애플리케이션을 제공합니다. 송장 문서를 자동으로 구문 분석하는 로컬 에이전트 워크플로를 구축하는 방법을 보여줍니다. 클라우드 서비스나 API 키 없이 전체 프로세스가 사용자의 로컬 컴퓨터에서 실행되므로 데이터 개인 정보 보호가 강화됩니다. 지정된 폴더에서 새 송장 파일(일반적으로 PNG 또는 JPEG와 같은 이미지 형식)을 모니터링하고 금액 및 통화와 같은 구조화된 정보를 추출하는 간단한 Python CLI를 만듭니다. 추출된 결과는 이후 분석 또는 로깅을 위해 CSV 파일에 추가됩니다. 이 워크플로는 일일 청구서 또는 송장 처리에 적합하며, 실제 작업에서 소규모 로컬 언어 모델의 잠재력을 보여줍니다. 테스트 결과, 샘플 송장의 약 75%를 정확하게 처리하여 모델의 실용성과 개선 가능성을 보여줍니다. 핵심 기술 및 모델: @ollama: 언어 모델을 로컬에서 실행하고 관리하고 효율적인 모델 추론을 지원하는 프레임워크입니다. uv: 종속성과 스크립트 실행을 처리하고 개발 효율성을 개선하는 고효율 Python 패키지 관리자입니다. • LFM2-VL-3B: Liquid AI의 시각 언어 모델로, OCR 기능을 포함하여 송장 이미지에서 원시 텍스트 설명을 추출하는 역할을 합니다. • LFM2-1.2B-Extract: 비정형 텍스트를 JSON 형식의 금액 및 통화 필드와 같은 정형화된 데이터 레코드로 변환하는 데 전념하는 또 다른 Liquid AI 모델입니다. 이러한 모델은 모두 소형(나노 크기)이며 일반 하드웨어에서 실행할 수 있어 비용 효율성과 현지 배포에 중점을 둡니다. 코드 구조와 작동 원리는 주로 src/invoice_parser/main.py에 있으며, 모듈식 설계를 통해 쉽게 확장할 수 있도록 설계되었습니다. 워크플로는 다음 단계로 구성됩니다. 1. 파일 모니터링: 이 도구는 지정된 디렉토리(예: invoices/)를 지속적으로 모니터링하여 새로 추가된 송장 파일을 감지합니다. 2. 텍스트 추출: 새로운 파일이 감지되면 LFM2-VL-3B 모델은 이미지를 처리하고 원래 텍스트 설명을 생성합니다(예: "총액: 100달러"와 같은 콘텐츠 인식). 3. 정보 구조화: 추출된 텍스트는 LFM2-1.2B-Extract 모델로 전달되고, 이 모델은 프롬핑 엔지니어링을 사용하여 텍스트를 {"amount": 100, "currency": "USD"}와 같은 구조화된 데이터로 변환합니다. 4. 데이터 저장: 구조화된 결과를 디렉토리의 bills.csv 파일에 추가하여 데이터 지속성을 보장합니다. 전체 프로세스는 지능형 에이전트 협업과 유사하게 체인 방식으로 연결됩니다. 시각적 모델은 "눈" 역할을 하고, 추출 모델은 "두뇌" 역할을 합니다. 기존 파일을 처리하는 경우 명령줄 인수를 통해 이 기능을 활성화할 수 있습니다. 오픈소스 주소:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
