구글 딥마인드가 네이처에 최신 연구 결과를 발표했습니다. [AI가 인간처럼 세상을 보는 법을 배우는 방법] "이미지만 인식할 수 있는" 기계에서 "이미지를 이해"하는 지능형 에이전트로 AI를 전환하는 것입니다. 시각적 AI는 널리 사용되고 있지만, 그 "시각적 이해" 방식은 인간의 방식과 체계적으로 다릅니다. AI는 "자동차와 비행기는 모두 대형 금속 차량이다"와 같은 개념을 인간처럼 이해할 수 없습니다. 연구자들은 "차이점 찾기" 과제를 통해 인간과 AI의 시각적 이해 방법을 비교한 결과, AI는 색상과 질감과 같은 표면적 특징에 더 쉽게 주의가 산만해지는 반면, 인간은 의미적 수준에 더 집중한다는 것을 발견했습니다. 그래서 그들은 3단계 과정을 거쳐 AI가 인간처럼 생각하도록 가르치고, AI의 시각적 표현을 인간의 인지 구조에 더 가깝게 조정했습니다. 첫 번째 단계는 SigLIP-SO400M을 기반으로 백본 네트워크를 동결하고 THINGS 데이터 세트에서 작은 어댑터를 훈련시켜 "교사 모델"을 얻는 것입니다. 두 번째 단계는 교사 모델을 사용하여 대규모 합성 데이터 세트인 AligNet을 생성하여 인간의 시각적 판단을 시뮬레이션하는 것입니다. 세 번째 단계는 AligNet을 사용하여 "학생 모델"을 훈련시켜 내부 표현을 인간의 의미 계층과 더 일관되게 만드는 것입니다. 정렬된 모델은 인간의 시각적 판단을 시뮬레이션하는 데 있어 더 일관되고 정확한 성능을 보이며, 인간과 같은 주저함과 불확실성을 보이고, 새로운 작업에 직면했을 때에도 더 나은 성능을 보입니다. #VLM
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![구글 딥마인드가 네이처에 최신 연구 결과를 발표했습니다. [AI가 인간처럼 세상을 보는 법을 배우는 방법]
"이미지만 인식할 수 있는" 기계에서 "이미지를 이해"하는 지능형 에이전트로 AI를 전환하는 것입니다.](https://pbs.twimg.com/media/G5mVLLhboAAMxKA.jpg)