시그모이드의 계단 드와르케쉬의 글을 읽고 나서 꽤 걱정스러웠던 참고 자료를 찾아봤습니다. 그 글에서 그는 이렇게 언급했습니다. "Toby Ord는 다양한 o-시리즈 벤치마크 차트를 영리하게 연결하여 "GPT 수준과 유사한 성능을 얻으려면 전체 RL 컴퓨팅을 백만 배 정도 확장해야 한다"고 제안하는 훌륭한 게시물을 올렸습니다. 이렇게 보면 일이 중단될 것 같습니다. 토비는 나를 걱정하게 만드는 두 가지 말을 했습니다. 1. "우리는 인상적인 성과를 거두었지만, 이는 너무 낮은 기반에서 시작했기 때문에 가능한 일이었습니다. 더 이상 발전하기에는 비용이 너무 많이 드는 지점에 도달했습니다." 2. "강화학습(RL)이 효과적인 한계에 다다르고 있으므로, 더 많은 컴퓨팅을 더 많은 지능으로 효과적으로 전환하는 능력을 상실했을 수도 있습니다." 저는 이 주장이 얼마나 타당한지, 그리고 RL을 확장해야 한다는 반대 주장은 무엇인지 주변 사람들에게 물었습니다. 친한 친구가 이렇게 말했어요. "맞아요. RL 컴퓨팅을 순진하게 계속 확장하면 제대로 확장되지 않을 거예요. 하지만 그렇게 해서는 안 돼요! RL 환경 관련 기업들이 그렇게 많은 이유가 바로 그거죠. 더 나은 접근 방식은 더 새롭고 더 어려운 환경으로 확장하는 거예요." 잠시 생각해 본 후, 저는 이것을 다음과 같이 더 압축할 방법을 찾았습니다. "계단을 새로운 작업, 세계, 목표에 대한 시그모이드라고 상상하는 것은 그것이 어떻게 한동안 지속될 수 있는지 생각하는 가장 유용한 방법입니다."
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.