AK는 2025년 인공지능 발전 동향을 살펴보는 팟캐스트를 제작했는데, 그 팟캐스트에서 나노 바나나를 2025년 가장 혁신적인 모델로 꼽았습니다. 이 그림은 훌륭한 드로잉 모델이라는 의미를 넘어, 이미지를 매개로 한 소통 방식을 보여준다는 점에서 의미가 크다. 🍌는 LLM의 시각적 버전입니다. LLM의 영상 버전이 추후에 제공될 예정입니다. 어떤 내용일까요? 🍅🥔🌶🍋? AK의 원문 번역: 구글 제미니 나노 바나나는 2025년 가장 놀랍고 패러다임을 바꿀 만한 모델 중 하나입니다. 제 관점에서 대규모 언어 모델(LLM)은 1970년대와 80년대의 개인용 컴퓨터에 이어지는 또 다른 주요 컴퓨팅 패러다임을 나타냅니다. 따라서 근본적으로 유사한 논리에 따라 우리는 비슷한 혁신의 물결을 목격하게 될 것입니다. 개인용 컴퓨터의 부활, 마이크로컨트롤러에 해당하는 인지 코어, 인터넷의 진화(에이전트 네트워크) 등을 목격하게 될 것입니다. 특히 사용자 인터페이스 및 경험(UI/UX) 측면에서 현재 LLM과의 "대화" 모드는 마치 1980년대에 컴퓨터 콘솔에 명령줄을 입력하는 것과 다소 유사합니다. 텍스트는 컴퓨터(및 LLM)에게 가장 기본적인 데이터 표현 방식이자 선호되는 형식이지만, 특히 입력 단계에서는 사람이 선호하는 형식은 아닙니다. 사실 인간은 길고 방대한 글을 읽는 것을 좋아하지 않습니다. 읽는 데 시간이 오래 걸릴 뿐 아니라 정신적으로도 부담이 되기 때문입니다. 반대로, 인간은 본래 시각적이고 공간적인 방식으로 정보를 흡수하는 경향이 있으며, 이것이 바로 전통적인 컴퓨터 분야에서 그래픽 사용자 인터페이스(GUI)를 발명한 이유입니다. 마찬가지로 LLM은 이미지, 인포그래픽, 슬라이드, 화이트보드, 애니메이션/비디오, 웹 애플리케이션 등 우리가 선호하는 방식으로 우리와 소통해야 합니다. 이러한 트렌드의 초기 프로토타입은 이모티콘과 마크다운이었는데, 마크다운은 제목, 굵게 표시, 목록 및 표를 사용하여 텍스트를 "꾸미고" 서식을 지정하여 읽기 쉽게 만듭니다. 하지만 누가 진정으로 LLM 시대를 위한 GUI를 만들 수 있을까요? 이러한 관점에서 볼 때, 나노 바나나는 우리에게 미래의 초기 형태를 엿볼 수 있게 해준다. 더욱 중요한 것은, 이 기능의 중요성은 단순한 이미지 생성에 있는 것이 아니라, 텍스트 생성, 이미지 생성, 그리고 모델 가중치에 담긴 세계에 대한 깊이 있는 지식을 서로 엮어 만들어내는 "공생적 기능"에 있다는 점입니다.
원문 영어 기karpathy.bearblog.dev/year-in-review…WtM 내년labnana.comwoe가 나노 바나나 모델을 위한 최고의 플랫폼이 되기를 바랍니다.