X (Twitter)

ウェブサイトを録画して AI に見せると、AI はそれを再現できますか? すごく素敵な照明のウェブサイトを見つけました。ボタンをクリックすると照明が点灯した時の効果を確認できる機能があり、ウェブサイトの配色も暗くなって、とても雰囲気のある効果を演出できます。ふと、こんな風にAIを使ってウェブサイトを作ったらどうなるだろう？ソースコードをそのままコピーすればいいのだろうか？それとも、途方もなく複雑なプロンプトを使って完成させればいいのだろうか？「ライトオフ」効果を示すビデオを録画し、そのビデオに基づいて AI に Web サイトを作成させることは可能ですか? そのため、この重要なタスクは、本日テストするモデル、Baiduが新たにリリースしたフルモーダルな大規模モデルであるWenxin-5.0-previewに割り当てられました。このモデルは、テキスト、画像、音声、動画を入力としてサポートし、テキストと画像を生成することができます。そのため、今回のテストではその機能を最大限に活用できます。まずウェブサイトのエフェクトを録画し、それを補完するプロンプトを作成し、エフェクトの見た目と用意した画像素材の場所を指定しました。ちなみに、ウェブサイトに表示されている画像もWenxin-5.0-previewを使って私が生成したものです。生成したエフェクトは動画でご覧いただけます。テストの結論を直接述べると次のようになります。現在、すべてのモダリティが利用可能であり、モダリティ間の相互関係も良好です。ビデオ＋テキスト、画像＋テキスト、画像＋音声の3つをテストしましたが、いずれもタスクを完了できました。もちろん、テストでは、トークンの出力速度がそれほど速くないことや、タイムアウトの問題が時々発生することなど、いくつかの問題も明らかになりました (これらの問題は Baidu チームに報告済み)。私の提案は、そのマルチモーダル機能を最大限に活用して、これまでは想像もできなかったタスクを達成することです。これにより、ユースケースの可能性の基準が本当に高まります。 #WenxinLargeModel #Wenxin5 #Baidu #WenxinOneWord #AITutorial

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容