재밌는 토요일 분위기 코드 프로젝트이자 앞서 올린 트윗에 이어서, **llm-council** 웹 앱을 해킹했습니다. ChatGPT와 똑같아 보이는데, 각 사용자 쿼리가 1) OpenRouter를 사용하여 의회의 여러 모델에 전송됩니다. 예를 들어, 현재 다음과 같습니다. "openai/gpt-5.1", "google/gemini-3-pro-preview", "인간/클로드-소네트-4.5", "x-ai/grok-4", 그런 다음 2) 모든 모델이 서로의 (익명화된) 응답을 보고 이를 검토하여 순위를 매기고, 3) "LLM 회장"이 이 모든 것을 맥락으로 삼아 최종 응답을 생성합니다. 같은 질의에 대해 여러 모델의 결과를 나란히 보는 것도 흥미롭고, 더욱 재미있는 것은 각 모델이 서로의 응답을 평가하고 순위를 매긴 것을 읽어보는 것입니다. 모델들은 종종 다른 LLM의 답변을 자신의 답변보다 우수하다고 선택하는 놀라운 경향을 보이는데, 이는 일반적으로 흥미로운 모델 평가 전략이 될 수 있습니다. 예를 들어, 오늘 LLM 협의회와 함께 책의 장들을 읽어보니, 모델들은 GPT 5.1을 최고이자 가장 통찰력 있는 모델로 꾸준히 칭찬하고, 클로드를 최악의 모델로 꾸준히 선정했으며, 다른 모델들은 그 사이에 끼어 있었습니다. 하지만 저는 이것이 제 정성적 평가와 100% 일치한다고 확신하지 못합니다. 예를 들어, 정성적으로 볼 때 GPT 5.1은 너무 장황하고 난잡하며, 제미니 3은 좀 더 간결하고 가공된 느낌이 듭니다. 클로드는 이 분야에서 너무 간결합니다. 그렇긴 하지만, LLM 위원회의 데이터 흐름에는 아마도 전체적인 설계 공간이 있을 것입니다. LLM 앙상블 구성은 아직 충분히 연구되지 않은 것 같습니다. 나는 vibe coded 앱을 푸시했습니다. https://t.co/EZyOqwXd2k 다른 사람들이 플레이하고 싶어한다면. ty nano banana pro for fun 저장소 헤더 이미지
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
