Si vous enregistrez un site web et le montrez à une IA, celle-ci peut-elle le reproduire ? Je viens de découvrir un site web d'éclairage vraiment génial. Il propose une fonctionnalité permettant de cliquer sur un bouton pour voir l'effet de la lumière allumée ; même les couleurs du site s'atténuent, créant une ambiance très particulière. L'idée m'est venue soudainement : et si nous voulions utiliser l'IA pour créer un site web de ce genre ? Devrions-nous simplement copier le code source ? Ou utiliser une invite de commande incroyablement complexe pour le compléter ? Est-il possible d'enregistrer une vidéo démontrant l'effet « lumières éteintes », puis de faire en sorte qu'une IA crée un site web à partir de cette vidéo ? Par conséquent, cette tâche importante a été confiée au modèle que nous testons aujourd'hui : Wenxin-5.0-preview, le nouveau modèle multimodal de grande taille récemment publié par Baidu. Ce modèle prend en charge le texte, les images, l'audio et la vidéo en entrée, et peut générer du texte et des images. Notre test peut ainsi exploiter pleinement ses capacités. J'ai d'abord enregistré l'effet du site web, puis j'ai rédigé une instruction pour le compléter, en précisant l'apparence attendue et l'emplacement des images préparées. Il est à noter que les images affichées sur le site ont également été générées par mes soins à l'aide de Wenxin-5.0-preview. Vous pouvez voir l'effet obtenu dans la vidéo. Pour énoncer directement la conclusion du test : Actuellement, toutes les modalités sont disponibles et leur interdépendance est excellente. J'ai testé les combinaisons vidéo + texte, image + texte et image + voix, et toutes permettent d'accomplir la tâche. Bien entendu, le test a également révélé certains problèmes, comme une vitesse de sortie des jetons qui n'était pas particulièrement rapide, et des problèmes de délai d'attente occasionnels (qui ont été signalés à l'équipe Baidu). Je suggère d'exploiter pleinement ses capacités multimodales pour accomplir des tâches auparavant inimaginables ; cela repousse véritablement les limites des possibilités offertes par ses cas d'utilisation. #WenxinLargeModel#Wenxin5#Baidu#WenxinOneWord#AITutorial
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.