X (Twitter)

어제 얼리 액세스로 제미니 3를 플레이해 봤습니다. 몇 가지 생각이 들었는데, 먼저, 저는 공개 벤치마크에 대해 주의를 기울일 것을 당부합니다. 제 생각에는 조작이 상당히 가능할 수 있기 때문입니다. 문서 임베딩 공간에서 테스트 세트와 인접한 데이터에 대해 정교한 조작을 통해 테스트 세트를 과적합하지 않도록 하는 것은 팀의 규율과 자제력(그렇지 않으면 강력한 인센티브를 제공받는)에 달려 있습니다. 현실적으로, 다른 모든 사람들이 그렇게 하고 있기 때문에 그렇게 해야 한다는 압박감이 큽니다. 모델과 이야기를 나눠보세요. 다른 모델들과도 이야기를 나눠보세요 (LLM 사이클을 따라가 보세요 - 매일 다른 LLM을 활용하세요). 어제 성격, 글쓰기, 분위기 조성, 유머 등 모든 면에서 긍정적인 첫인상을 받았어요. 데일리 드라이버로서의 잠재력이 매우 뛰어나고, 분명 티어 1 LLM입니다. 팀원들 축하합니다! 앞으로 며칠/몇 주 동안 저는 개인 평가에 대한 앙상블이 어떻게 될지 매우 궁금하고 기대하고 있습니다. 많은 사람/조직이 스스로 앙상블을 만들고 가끔 여기에서 보고하는 것 같습니다.

Andrej Karpathy(@karpathy)의 스레드

작성자 정보

스레드 내용