오늘 열린 바이두 월드 컨퍼런스에서 바이두는 오랜 침묵 끝에 웬신 5.0(EB5) 모델을 출시했습니다. 그들은 큰 움직임을 억제해 온 것 같습니다. 공개된 정보에 따르면, 이 세대의 모델은 훈련 시작부터 텍스트, 이미지, 오디오, 비디오 훈련 데이터를 직접 통합합니다. 이는 기본적인 풀모달 모델입니다. - 매개변수 규모는 최대 2조 4천억 개에 달합니다. - MoE 아키텍처 활성화 매개변수 비율 < 3% 비디오 분석 기능을 테스트해 본 결과, 어느 정도 장점이 있는 것 같습니다. 대화뿐만 아니라 영상도 정말 잘 이해하실 수 있고, 시각적 분석도 꽤 훌륭하시네요...
좀 더 어려운 것을 시도해 보자. 비디오 매시업 분석 ↓ 이 영상에는 어떤 애니메이션과 영화/TV 소스 자료가 사용되었으며, 어느 시점에 사용되었나요? 어떤 배경 음악이 사용되었나요? 자세한 목록을 제공해 주세요.
이것이 맞는지 확인해 줄 수 있는 애니메이션 전문가가 있나요? 이건 제가 아는 바가 아니에요, 하하하 제가 아는 건 몇 개뿐이에요. 하지만 잠깐 훑어보니, 그 말들은 모두 꽤 옳다고 생각합니다...
더욱이 모든 종류의 이미지와 오디오를 인식할 수 있습니다. 팟캐스트 콘텐츠를 텍스트로 추출하는 것도 아주 쉽습니다. 힌트: 전체 오디오 콘텐츠를 추출하고, 핵심 요점을 요약한 후, WeChat 공식 계정에 게시하기에 적합한 기사로 다시 작성하세요.
다른 텍스트와 이미지 유형은 테스트하지 않았습니다yiyan-preview.baidu.com 같습니다: https://t.co/N9gVIyrF5d 하지만 이번에는 해당 모델이 오픈소스가 될지 여부에 대한 언급이 없는 것 같습니다...

