어제 얼리 액세스로 제미니 3를 플레이해 봤습니다. 몇 가지 생각이 들었는데, 먼저, 저는 공개 벤치마크에 대해 주의를 기울일 것을 당부합니다. 제 생각에는 조작이 상당히 가능할 수 있기 때문입니다. 문서 임베딩 공간에서 테스트 세트와 인접한 데이터에 대해 정교한 조작을 통해 테스트 세트를 과적합하지 않도록 하는 것은 팀의 규율과 자제력(그렇지 않으면 강력한 인센티브를 제공받는)에 달려 있습니다. 현실적으로, 다른 모든 사람들이 그렇게 하고 있기 때문에 그렇게 해야 한다는 압박감이 큽니다. 모델과 이야기를 나눠보세요. 다른 모델들과도 이야기를 나눠보세요 (LLM 사이클을 따라가 보세요 - 매일 다른 LLM을 활용하세요). 어제 성격, 글쓰기, 분위기 조성, 유머 등 모든 면에서 긍정적인 첫인상을 받았어요. 데일리 드라이버로서의 잠재력이 매우 뛰어나고, 분명 티어 1 LLM입니다. 팀원들 축하합니다! 앞으로 며칠/몇 주 동안 저는 개인 평가에 대한 앙상블이 어떻게 될지 매우 궁금하고 기대하고 있습니다. 많은 사람/조직이 스스로 앙상블을 만들고 가끔 여기에서 보고하는 것 같습니다.
가장 재밌었던 상호작용은 모델(아마 오래된 시스템 프롬프트가 있는 이전 버전을 받았던 것 같습니다)이 제가 2025년이라는 걸 믿지 않고, 제가 속이려 하거나 뭔가 정교한 농담을 하고 있다는 이유를 계속 지어내던 때였습니다. 저는 모델에게 "미래"의 이미지와 기사를 계속 보여줬지만, 모델은 계속 그게 다 가짜라고 주장했습니다. 모델은 제가 생성 AI를 사용해서 자신의 문제를 해결하려 한다고 비난하며, 진짜 위키피디아 항목이 왜 생성되었는지, 그리고 "증거"가 무엇인지 따져 물었습니다. 제가 구글 이미지 검색 결과를 보여주자 모델은 아주 작은 디테일까지 강조하며, 왜 썸네일이 AI로 생성되었는지 따져 물었습니다. 나중에야 "구글 검색" 도구를 켜는 걸 깜빡했다는 걸 깨달았습니다. 구글 검색 도구를 켜자 모델은 인터넷을 검색했고, 제가 처음부터 옳았다는 충격적인 사실을 깨달았습니다. :D 하이킹 코스에서 벗어나 일반화의 정글 어딘가에 있는 것처럼 보이는 이런 의도치 않은 순간에 모델의 냄새를 가장 잘 느낄 수 있습니다.
