X (Twitter)

재밌는 토요일 분위기 코드 프로젝트이자 앞서 올린 트윗에 이어서, **llm-council** 웹 앱을 해킹했습니다. ChatGPT와 똑같아 보이는데, 각 사용자 쿼리가 1) OpenRouter를 사용하여 의회의 여러 모델에 전송됩니다. 예를 들어, 현재 다음과 같습니다. "openai/gpt-5.1", "google/gemini-3-pro-preview", "인간/클로드-소네트-4.5", "x-ai/grok-4", 그런 다음 2) 모든 모델이 서로의 (익명화된) 응답을 보고 이를 검토하여 순위를 매기고, 3) "의장 LLM"이 이를 모두 맥락으로 받아들여 최종 응답을 생성합니다. 같은 질의에 대해 여러 모델의 결과를 나란히 보는 것도 흥미롭고, 더욱 재미있는 것은 각 모델이 서로의 응답을 평가하고 순위를 매긴 것을 읽어보는 것입니다. 모델들은 종종 다른 LLM의 답변을 자신의 답변보다 우수하다고 선택하는 놀라운 경향을 보이는데, 이는 일반적으로 흥미로운 모델 평가 전략이 될 수 있습니다. 예를 들어, 오늘 LLM 협의회와 함께 책의 장들을 읽어보니, 모델들은 GPT 5.1을 최고이자 가장 통찰력 있는 모델로 꾸준히 칭찬하고, 클로드를 최악의 모델로 꾸준히 선정했으며, 다른 모델들은 그 사이에 끼어 있었습니다. 하지만 저는 이것이 제 정성적 평가와 100% 일치한다고 확신하지 못합니다. 예를 들어, 정성적으로 볼 때 GPT 5.1은 너무 장황하고 난잡하며, 제미니 3은 좀 더 간결하고 가공된 느낌이 듭니다. 클로드는 이 분야에서 너무 간결합니다. 그렇긴 하지만, LLM 위원회의 데이터 흐름에는 아마도 전체적인 설계 공간이 있을 것입니다. LLM 앙상블 구성은 아직 충분히 연구되지 않은 것 같습니다. 나는 vibe coded 앱을 푸시했습니다. https://t.co/EZyOqwXd2k 다른 사람들이 플레이하고 싶어한다면. ty nano banana pro for fun 저장소 헤더 이미지

Andrej Karpathy(@karpathy)의 스레드

작성자 정보

스레드 내용