X (Twitter)

[오픈소스 추천] LLM 협의회: Andrej Karpathy의 주말 "Vibe Coding" 프로젝트는 다중 모델 협업을 통해 AI 응답의 품질을 향상시킵니다. 여러 AI 모델이 원탁에 둘러앉아 초기 응답부터 최종 합성까지 사용자 질의에 대해 논의하는 가상의 "협의회" 상황을 상상해 보세요. 카르파티의 초기 아이디어는 LLM을 활용하여 독해를 돕고, 향후 글쓰기가 단순히 인간 중심적인 것이 아니라 "LLM을 이해하기 쉽게 만드는 것"에 더 집중될 것이라고 예측하는 것이었습니다. 이 프로젝트는 이러한 아이디어를 실질적으로 확장하여 여러 LLM을 "협의회"로 통합하여 집단 심의 과정을 시뮬레이션하는 것입니다. 카르파티는 모델 간의 상호 평가가 종종 다른 모델의 결과를 "겸손하게" 인정하는 모습을 관찰했으며, 이는 아직 완전히 탐구되지 않은 통합 LLM 설계의 잠재력을 보여줍니다. GitHub 저장소: llm-council https://t.co/yFBqjm4IVU 복잡한 질의(예: 책 장 읽기)에 대해 더욱 신뢰성 있고 통찰력 있는 답변을 생성하기 위해 "다중 모델 AI 자문 위원회"를 시뮬레이션하는 로컬 실행 웹 애플리케이션입니다. OpenRouter API를 통해 여러 LLM에 연결하여 단일 모델의 편향을 방지합니다. 이 프로젝트는 간결한 코드(Python 백엔드 + React 프런트엔드)를 사용하고, 쉽게 사용자 정의할 수 있으며, 프로덕션 수준의 견고성보다는 실험적인 견고성을 강조합니다. 주요 특징: 다중 모델 병렬 응답: 사용자 쿼리는 동시에 협의회 모델에 분산되어 응답의 측면 보기를 표시하여 쉽게 비교할 수 있습니다. • 익명 동료 평가 메커니즘: 모델들은 서로의 출력 결과를 (신원을 밝히지 않고) 검토하고 정확도와 심도에 따라 점수를 매깁니다. 흥미롭게도 이 단계는 모델들의 "자기 인식" 차이를 드러냅니다. • 의장 합성: 순위 결과를 통합하여 최종 답변을 출력하는 모델을 지정합니다. • 로컬 저장소: 대화 기록은 JSON 파일로 저장되어 쉽게 검토할 수 있습니다. 워크플로(3단계) 1. 1단계: 모든 모델(예: GPT-5.1, Gemini-3-Pro, Claude-Sonnet-4.5, Grok-4)에 초기 의견 질의가 전송되고, 각 모델은 독립적으로 응답을 생성합니다. 인터페이스는 카드를 나란히 표시하여 차이점을 강조합니다(예: GPT는 더 자세하고 Gemini는 더 간결함). 2. 두 번째 단계: 검토 및 순위 매기기. 각 모델은 익명의 응답 세트를 받아 다른 모델의 결과를 평가하고 순위를 매깁니다. 예시 질문은 객관성을 장려합니다. "어떤 것이 가장 정확할까요? 어떤 것이 가장 좋은 통찰력을 제공할까요?" 이 단계에서는 모델의 선호도를 드러내며, 종종 "모델 간 칭찬"이 포함됩니다. 3. 세 번째 단계: 최종 응답 의장 모델(기본 Gemini-3-Pro)은 모든 분석을 수신하고, 간결한 결과를 종합하며, 소스 순위를 표시합니다. 결과는 종종 더 균형 잡히고 중복을 줄입니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용