Se você gravar um site e mostrá-lo para uma IA, a IA conseguirá replicá-lo? Acabei de ver um site de iluminação muito legal. Ele tem uma função em que você pode clicar em um botão para ver o efeito da luz sendo acesa, e até mesmo o esquema de cores do site diminui, criando um efeito atmosférico incrível. De repente me ocorreu: e se quiséssemos usar IA para criar um site como este? Deveríamos simplesmente copiar o código-fonte? Ou usar um prompt absurdamente complexo para completá-lo? É possível gravar um vídeo demonstrando o efeito de "luzes apagadas" e, em seguida, usar inteligência artificial para criar um site com base nesse vídeo? Portanto, essa importante tarefa foi atribuída ao modelo que estamos testando hoje, o recém-lançado Wenxin-5.0-preview da Baidu, um modelo grande e totalmente modal. Esse modelo suporta texto, imagens, áudio e vídeo como entrada e pode gerar texto e imagens. Assim, nosso teste pode maximizar o uso de suas capacidades. Primeiro, gravei o efeito do site e, em seguida, escrevi um texto explicativo para complementá-lo, indicando como o efeito deveria ser e onde os materiais de imagem preparados estavam localizados. Vale mencionar que as imagens exibidas no site também foram geradas por mim usando o Wenxin-5.0-preview. Você pode ver o efeito que criei no vídeo. Para declarar diretamente a conclusão do teste: Atualmente, todas as modalidades estão disponíveis e a inter-relação entre elas é excelente. Testei vídeo + texto, imagem + texto e imagem + voz, e todas conseguiram concluir a tarefa. É claro que o teste também revelou alguns problemas, como a velocidade de saída do token não ser particularmente rápida e problemas ocasionais de tempo limite (que foram relatados à equipe do Baidu). Minha sugestão é aproveitar ao máximo suas capacidades multimodais para realizar tarefas antes inimagináveis; isso realmente eleva o patamar das possibilidades de seus casos de uso. #WenxinLargeModel#Wenxin5#Baidu#WenxinOneWord#AI Tutorial
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.