X (Twitter)

웹사이트를 녹화해서 AI에 보여주면 AI가 그것을 복제할 수 있을까? 방금 정말 멋진 조명 웹사이트를 봤어요. 버튼 하나만 클릭하면 조명이 켜지는 효과를 볼 수 있고, 웹사이트의 색 구성표도 어두워져서 정말 분위기 있는 효과를 낼 수 있더라고요. 갑자기 이런 웹사이트를 만드는 데 AI를 활용한다면 어떨까 하는 생각이 들었습니다. 소스 코드를 그대로 복사해서 넣어야 할까요? 아니면 엄청나게 복잡한 프롬프트를 사용해서 완성해야 할까요? "전구 끄기" 효과를 보여주는 영상을 녹화한 다음, AI가 영상을 기반으로 웹사이트를 작성하는 것이 가능할까요? 따라서 이 중요한 작업은 오늘 테스트 중인 모델, 즉 바이두에서 새롭게 출시한 풀모달 대형 모델인 Wenxin-5.0-preview에 할당되었습니다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 입력으로 지원하고 텍스트와 이미지를 생성할 수 있습니다. 따라서 저희 테스트는 모델의 기능을 최대한 활용할 수 있습니다. 먼저 웹사이트 효과를 녹화한 후, 효과를 보완하기 위한 프롬프트를 작성하여 효과가 어떤 모습이어야 하는지, 준비된 이미지 자료는 어디에 있는지 설명했습니다. 웹사이트에 표시된 이미지 역시 제가 Wenxin-5.0-preview를 사용하여 직접 생성했다는 점을 언급해 주시면 감사하겠습니다. 제가 생성한 효과는 영상에서 확인하실 수 있습니다. 테스트 결론을 직접 명시하려면: 현재 모든 모달리티를 사용할 수 있으며, 모달리티 간의 상호 연관성도 매우 뛰어납니다. 비디오 + 텍스트, 이미지 + 텍스트, 이미지 + 음성을 테스트해 본 결과, 모두 작업을 완료할 수 있었습니다. 물론, 이 테스트에서는 토큰 출력 속도가 그다지 빠르지 않고, 가끔 시간 초과 문제(바이두 팀에 보고됨)가 발생하는 등의 몇 가지 문제점도 드러났습니다. 제가 제안하고 싶은 것은 이전에는 상상도 할 수 없었던 작업을 달성하기 위해 다중 모드 기능을 최대한 활용하는 것입니다. 이를 통해 사용 사례의 가능성에 대한 기준이 정말로 높아졌습니다. #Wenxin대형모델 #Wenxin5 #Baidu #WenxinOneWord #AITutorial

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용