火山エンジン発表会現場にいたのですが、そこで目が回るような発表がたくさんありました。
豆包大規模モデル1.6、豆包動画生成モデルSeedance 1.0 pro、音声ポッドキャストモデル、エンドツーエンド音声モデルなどです。
火山はやはり火山で、本当に、蓄えが多すぎます。
そのほとんどは以前に書いたものですが、例えば音声ポッドキャストモデルは、数日前に私が書いたCozeのAIポッドキャストの基盤です。
そして今回、私が比較的新しく、最もクールだと感じたのは、この動画生成モデルSeedance 1.0 proです。
これは数日前にランキングを席巻しましたが、名前は異なりますが、実際には同じものです。
当時ランキングが発表されると、多くの友人がじっとしていられなくなりました。
多くの金融関係の友人からも、すぐに質問が来ました。
しかし、何も言えませんでした。何を言っても機密漏洩になりますから。
実は先週末、私はこのモデルの内部テスト、つまりJiemeng AIのビデオ3.0 Proを入手しました。
数日間、楽しんで使っています。
以前話題になったJiemeng AI Video 3.0は、実はSeedance 1.0 liteです。Jiemeng AI Video 3.0のレビューは、以前Han Qingが書いたものを参照してください:『Jiemeng AI Video 3.0を実際にテスト、品質が全面的に向上し、究極のコストパフォーマンスを持つ六角形戦士』
そして今回、Jiemeng AI Video 3.0 pro、つまりSeedance 1.0 proについても、多くのケースをテストしました。まず結論から言います。
Han Qingの評価と同じく、よりバランスの取れた、純粋な六角形戦士です。
私のレビューも公開しますので、Seedance 1.0 proに対する客観的な認識を持っていただければ幸いです。
前置きはこれくらいにして、本題に入ります。
今回の評価では、以下のいくつかの側面で分けました。
1. マルチショットの組み合わせ
2. 動きの品質
3. 感情表現
4. カメラワーク
5. 物理的な動的効果
6. スタイライズ
一つずつ見ていきましょう。
一. マルチショットの組み合わせ
これはバイトダンスの動画モデルの一般的な特徴とも言えます。動画内で直接シーンを切り替えることができます。
例えば、このような画像があります。
私は彼に次のようなプロンプトを書きました。
ライオンがスエードのスーツを着てオープンカーの中に座っており、カメラが横前方からゆっくりと近づいてくる。彼は運転席にしっかりと座り、頭を少しカメラの方に向け、風がたてがみを揺らし、太陽の光が強く、サングラスには雲の影と荒野の景色が反射している。彼は微動だにせず、何らかの信号を待っているかのようだ。
カメラが切り替わる。
カメラが車内からの俯瞰ショットに切り替わり、ライオンがゆっくりとサングラスを外し、カメラを真っ直ぐに見つめ、指でハンドルを叩く。遠くからエンジンの音が聞こえ、彼は軽く口元を引き締め、ゆっくりと遠くの道路の終点に目を向け、小さな声でセリフを言った。「彼らがついに来た。」
カメラが切り替わる。
カメラが真後ろの低い位置からの追跡ショットにズームアウトし、車が発進し、排気ガスが噴き出す。彼はゆっくりとカメラから離れていき、後ろ姿が遠ざかる。前方の雲が低く垂れ込め、空が突然変化し、カメラは最後に「WELCOME BACK, KING.」と書かれた道路標識に固定される。
ここから分かるように、私は「カメラ切り替え」というトリガーワードを2回使いました。これを書き込むと、動画内で直接シーンを切り替えることができます。
Seedance 1.0 proの生成効果を見てみましょう。
この意味理解能力は少しおかしいです。プロンプトに書いたことが、この10秒間の中にほとんどすべて実現されています。そして最も驚くべきことは…。
私のエンディングでは、カメラが最後に『WELCOME BACK, KING』と書かれた道路標識に固定されるように書きました。
分かっています、文字は少し間違いがあり、文字化けしていますが、それでも私の言葉を理解し、この道路標識を本当に生成してくれました。文字も実際に生成しようとしており、Jiemeng Image 3.0のように完璧な精度ではありませんが、バイトダンスに時間を与えれば、これらは問題にならないと信じています。
もう一つ、私のお気に入りの猫です。
さらにプロンプトを追加しました。
黄金の絨毯に座った一匹のオレンジ猫がゆっくりと目を開け、睫毛が微かに震える。カメラがゆっくりと前進する。カメラ切り替え。クローズアップショット、猫が絨毯の端にあるレンガを爪で押し、地面の仕掛けがカチッと音を立てる。カメラ切り替え。パノラマショット、周囲のキャンドルが一斉に消え、背後の石壁がゆっくりと開き、一筋の光が差し込む。
完璧です。テキストからの動画生成も可能です。以前、蔵師匠のプロンプトを一部使いました。
一連の素早く変化するダイナミックなショット:アスリートが炎天下を走り、汗だくになり、額から汗が滴り落ちる。サーファーが波に乗る。若者のグループが野外音楽フェスティバルで興奮して飛び跳ねる。冷たい飲み物が開けられ、泡が立ち上るクローズアップショット。最後に、数人がグラスを掲げて乾杯し、満足げで生き生きとした笑顔が顔に広がる。
二. 動きの品質
今回のSeedance 1.0 proの動きの品質もトップレベルです。
最初に登場するのは、イギリスの有名なタフガイ、ボンドです。
プロンプトは非常にシンプルです:男が標的に照準を合わせ、銃を構え、発砲する。
ボルトを引いて、銃を構え、狙いを定め、撃つ。一連の動作が非常にスムーズです。
発砲の瞬間の反動や、顔に映る火花も非常にリアルです。この部分は物理法則の評価範囲ですが、利点なので、まずは褒めておきましょう。
次に、この非常に抽象的な、タップダンスを踊る骸骨です。
骨格だけですが、動作の範囲はかなり大きく、力強いです。このダンスは、私が踊るものといい勝負かもしれません。
注意深く見ると、この人物もかなり頑張っていて、どこも破綻していません。
それから、パンケーキを一緒に食べる2人の男がいます。知らない人が見たら、アベンジャーズの映画のワンシーンかと思うかもしれません。
そして最も難しい、運動です。
プロンプト:男性がボールをドリブルしながら走り、シュートする。カメラは男性を追従する。
10秒間、ドリブルもランニングもエラーがなく、非常に安定していました。
唯一不満があるとすれば、シュートが入らなかったことです。しかし、少なくとも物理法則には従っており、一部のAIのように、ボールを入れるためだけに、どれだけの邪悪な魔法を使ったのか分からないほど、ニュートンの棺の蓋が持ち上がりそうになるようなことはありませんでした。
次にサッカーです。
プロンプト:選手が巧みにドリブルで相手を抜き、動きは滑らかで、カメラは人物を追従する。
ドリブルでの抜き去りはあまり明確に表現されておらず、邪魔する人は前景で少し揺れただけでした。しかし、それ以外は、選手の動きは非常に安定していました。
三. 感情
この部分で最も重要なのは、皆さんに没入感を持って感じてもらうことなので、事例を多く提示し、説明は控えめにします。
私がとても好きなショットの一つで、走りながら泣き出すシーンです。共感します。
少女がカメラを見て微笑む。
心配事を抱えた子供が、車の窓の外を見ている。
恐怖、瞳孔が拡大する。
少女が涙を流す。
ボクサーが打ち倒されたが、屈することなく立ち上がる。
好奇心旺盛な小さなビーグル犬。
私に最も印象的だったのは、このケースです。この宇宙飛行士は酸素が尽きかけ、地球が目の前にあるのに戻れない、とモデルに伝えました。
これはSeedance 1.0 proが私に提示した2つの表現方法です。
一つ目は、非常に抑制されており、大きな表情はありません。口元が微かに微笑んでおり、人生の忘れられない一時期を思い出しているようにも、酸素不足で朦朧とし、命が長くないようにも見えます。
二つ目は、息ができないとはどういうことかを没入体験させてくれます。大きく呼吸し、生き残ろうとする意志に満ちています。カメラが切り替わると、窓の外にはすぐに地球が見えます。あと少しで届くのに。これは焦らずにはいられません。私も彼に代わって焦りを感じます。
本当に、どのAIのパフォーマンスがオスカーを受賞できるか見てみたいものです。
四. カメラワーク
実際、カメラワークは前の2つのセクションでも触れましたが、このセクションでは、より純粋に(技巧を凝らして)掘り下げます。
360度回転してみましょう。
もう一度、回転してみましょう。
航空撮影もしてみましょう。
もう一度、車を追いかけてみましょう。
この安定性なら、Seedance 1.0 proをドローンとして使えると感じます。
五. 物理的な動的効果
このセクションで主に試されるのは、Seedance 1.0 proがニュートンおじいちゃんの棺の蓋を抑えつけられるか、です。
この動画には、馬の走行、スチームパンクの歯車の回転、水しぶき、毛のなびきといった要素が含まれています。
それぞれの要素を単独で取り上げてみると、問題が発生しやすいものです。
しかし、この動画に関しては、馬のたてがみが少し硬い点を除けば、他に欠点を見つけることができませんでした。
地球上の物理法則は簡単すぎます。もう少し難易度を上げて、宇宙物理学を見てみましょう。
まあまあですね、ニュートンも文句はないでしょう。
水中のものも一つ。
髪の毛や服の浮遊、水中の泡、水底の波紋も、実際の物理法則に非常によく合致しています。
口紅を塗るシーンでは、肌の張りが非常にリアルです。
バイクに乗る効果も非常にスムーズです。
タイムラプス撮影効果も含まれます。
恋愛映画でよくある、一緒に陶器を捏ねるシーンも、今では作れます。
さらに面白いことに、陶器を捏ねる際に最も重要なのは陶器ではなく、身体的な接触であり、この二人の手は最初から最後まで離れませんでした。
六. スタイライズ
Jiemengのスタイライズの一貫性は、私が常に最高だと感じていたもので、他にはありません。
これは特定のスタイルにおける一貫性の効果です。
男は銃を置き、パンを取り出して食べ始めた。
先ほどのボンドと比較すると、彼は真のタフガイでしたが、この若者には別の感情が宿っており、初めて戦場に出た子供のように途方に暮れているようです。
本当に、とても繊細です。
また、以前私のショートビデオで作成したピクセル化も、Seedance 1.0 proだけがうまく表現できました。
アニメスタイルで、両手が水中で絶えずもがく。カメラが切り替わり、クローズアップ、主人公の恐怖に満ちた目。
非常に特徴的な2つのイラストスタイル。
最後に
以上、皆様が読み終えて、Seedance 1.0 proについてかなり明確な認識を持っていただけたことと思います。
Seedance 1.0 proは、新しいランキングトップの座にふさわしく、キャラクターの動き、表情と感情、物理法則、カメラワーク能力、スタイルの一貫性、意味理解において弱点がなく、すべてにおいてトップレベルの先進的な水準にあります。
さらに、スポーツの動き、表情や感情の処理、スタイルの一貫性に関しては、しばしば人々を驚かせます。
Seedance 1.0 proは、しばらくの間、ランキングのトップに君臨し続けるでしょう。
もちろん、他の競合他社も手をこまねいているわけではなく、虎視眈々と狙っています。
AI動画は、確かにますます競争が激化しています。
正直に言って、競争が激しくなればなるほど、最終的に恩恵を受けるのは私たちユーザーです。
現在、火山エンジンもSeedance 1.0 proを企業ユーザーに開放しています。約5秒の1080P動画の価格は3.67元です。
本日、Doubaoアプリで全面リリースされます。Doubaoアプリのダイアログボックスを開き、『写真を動かす』を選択し、テキストコマンドを入力するか画像をアップロードするだけで体験できます。
だから、競争は良いことです。
実際、感慨深いものがあります。
Runway時代からAI動画を楽しんできた者として、この2年間で多くの素晴らしいAI動画製品を見てきました。一時は名を馳せたものの、次第に遅れを取るものもありました。
中には、静かに黙々と追いつき続けるものもあれば、デビューと同時に世間を驚かせ、今も高みを目指し続けているものもあります。
ランキングで、国産モデルの名前を常に目にしたいと願っています。
ただ願うばかりです。
国の運命が隆盛であることを。
以上、ここまで読んでくださった方、もしよろしければ、いいね、既読、シェアの3点セットをお願いします。最速で通知を受け取りたい場合は、星マーク⭐をつけてください〜私の記事を読んでいただきありがとうございます。また次回お会いしましょう。
>/ 著者:カジックス、水杉
>/ 投稿または情報提供は、メールアドレス:wzglyay@virxact.comまでご連絡ください。