人在火山引擎發表會現場,會中發布了許多令人眼花撩亂的產品。
包括豆包大模型 1.6、豆包視訊生成模型 Seedance 1.0 Pro、語音播客模型,以及端到端語音模型等等。
火山仍是火山,其儲備量確實非常龐大。
其中大部分內容都已撰寫過,例如語音播客模型,就是前幾天我撰寫的「扣子」AI 播客,其底層技術便是這個。
而這次,我覺得較新穎且最酷炫的,還是這個視訊生成模型 Seedance 1.0 Pro。
這東西前幾天橫掃了榜單,雖然名稱不同,但實際上是同一個產品。
當時榜單一公布,許多朋友立刻就坐立難安了。
許多從事金融業的朋友也第一時間跑來詢問我。
不過我也不好多說什麼,說什麼都可能洩漏機密。
其實我上週末就拿到了這個模型的內部測試版,也就是即夢 AI 上的視訊 3.0 Pro。
我已經痛快地玩了好幾天了。
之前很紅的即夢 AI 視訊 3.0,其實就是 Seedance 1.0 Lite。關於即夢 AI 視訊 3.0 的評測,可以參考之前汗青寫的這篇文章:「第一手實測即夢 AI 視訊 3.0,品質全面提升,極致性價比的六邊形戰士」。
而這次,即夢 AI 視訊 3.0 Pro,也就是 Seedance 1.0 Pro,我也測試了許多案例,先說結論:
與汗青的評價相同,這是一個更全能、更純粹的六邊形戰士。
我也公開我的評測,希望能讓你們對 Seedance 1.0 Pro 有更客觀的認知。
廢話不多說,正式開始。
這次評測,我總共分為以下幾個面向:
1. 多鏡頭組合
2. 運動品質
3. 情緒表演
4. 運鏡
5. 物理動態效果
6. 風格化
我們一個一個來看。
一、多鏡頭組合
這也可以算是位元組跳動視訊模型一貫的特色了,可以直接在視訊中切換分鏡。
例如我有一張這樣的圖片。
我為它寫了一段提示詞 (Prompt):一隻獅子穿著絨面西裝坐在敞篷老爺車內,鏡頭從側前方仰角緩緩逼近。牠穩穩地坐在駕駛座,頭微偏向鏡頭方向,鬃毛隨風飄動,陽光強烈,墨鏡反射出雲影與廢土景色。牠一動不動,像在等待某個訊號。鏡頭切換。鏡頭切至車內俯拍,獅子緩緩抬手摘下墨鏡,眼神直視鏡頭,手指輕敲方向盤,背景響起遠處的引擎聲。牠輕抿嘴角,緩緩轉頭望向遠方公路盡頭,輕聲說了一句台詞:「他們終於來了。」鏡頭切換。鏡頭拉遠至正後方低位跟拍,車子啟動、尾氣噴出,牠緩慢駛離鏡頭,背影漸遠。前方雲層壓低,天空驟變,鏡頭最後定格在一塊路牌上:WELCOME BACK, KING。
我們來看看 Seedance 1.0 Pro 的生成效果。
這個語義理解能力有點太過驚人,我在提示詞中寫的內容幾乎都在這 10 秒內完全實現了,最最令人難以置信的是。
我的結尾寫到,鏡頭最後定格在一塊路牌上:WELCOME BACK, KING。
我知道,這些字稍微有點錯誤,有點亂碼,但是不妨礙它理解了我的話。這個路牌是真的為我生成出來了,而且文字也確實是在嘗試生成,雖然沒有即夢圖片 3.0 那麼完美的準確,但我相信,只要給位元組跳動時間,這些都不是問題。
還有一個我很喜歡的貓咪。
再加上提示詞:一隻橘貓坐在金色地毯上,緩慢睜眼,睫毛微顫,鏡頭緩慢前推。鏡頭切換。特寫鏡頭,貓抬爪按下地毯邊緣一塊磚,地面機關咔噠響起。鏡頭切換。全景鏡頭,周圍蠟燭同時熄滅,背後石壁緩緩打開,一道亮光射入。
非常完美,文字生成視訊也可以。我用了一段之前藏師傅的提示詞:
一系列快速變化的動態鏡頭:運動員在烈日下奔跑,大汗淋漓,汗珠從額頭滴落;衝浪者乘風破浪;一群年輕人在戶外音樂節上興奮地跳躍。特寫鏡頭顯示冰鎮飲料被打開,氣泡升騰。最後,幾個人舉杯祝酒,臉上洋溢著滿足而充滿活力的笑容。
二、運動品質
這次 Seedance 1.0 Pro 的運動品質也在第一梯隊。
第一個出場的是大英著名硬漢龐德。
提示詞非常簡單:男人瞄準目標,舉槍,開火。
拉栓、舉槍、瞄準、射擊,一套動作非常行雲流水。
開火那一瞬間的後座力,以及映照在臉上的火光,都非常真實。這部分其實屬於物理定律評測的範疇,不過既然是優點,就先拿出來讚揚一番。
然後是這個非常抽象的,骷髏跳踢踏舞。
雖然只剩下骨架,但動作幅度挺大,也很有勁道,雖然這支舞和我跳的有一拼。
仔細看看,這傢伙也挺爭氣的,哪裡都沒有崩壞。
還有兩個哥們兒一起吃煎餅,如果不知道的人,可能還以為是某部復仇者聯盟電影裡的。
還有最困難的,運動場景。
提示詞:一個男人跑步運球,投籃,鏡頭跟隨男人。
十秒的時間,無論是運球還是跑步,都沒有出錯,非常穩定。
唯一要抱怨的是,投籃沒有投進。不過至少是符合物理定律的,不像有些 AI,為了把球投進去,使出了不知道多少邪術,牛頓的棺材板都要壓不住了。
然後是踢足球。
提示詞:球員腳法熟練地帶球過人,動作流暢,運動鏡頭跟隨人物。
帶球過人體現得不夠明顯,阻攔的人只是在前景色中晃了一下。不過除此之外,運動員的動作非常穩定。
三、情緒
這部分最重要的是讓大家沉浸式感受,所以我會多放一些案例,少說兩句。
一個我很喜歡的鏡頭,跑著跑著就哭了,感同身受。
女孩看向鏡頭,微笑。
心事重重的孩子,望著車窗外。
恐懼,瞳孔放大。
女孩流下眼淚。
拳擊手被打倒,仍然不屈地站起來。
好奇的小米格魯犬。
讓我印象最深的其實是這個案例,我告訴模型,這位太空人氧氣即將耗盡,地球就在眼前,但他回不去。
這是 Seedance 1.0 Pro 給我的兩種表演方式:
第一種,很克制,沒有什麼明顯的表情。嘴角微微一笑,看起來像是回憶起了人生中某一段難忘的經歷,又像是因為缺氧而恍惚,生命即將走到盡頭。
第二種,沉浸式體驗什麼叫做喘不上氣。大口呼吸,充滿了求生意志。鏡頭一轉,窗外,馬上就到地球了,就差這麼一口氣。這怎麼能不急呢,我都替他著急。
真的,就看哪種 AI 的表演,能去玩玩奧斯卡了。
四、運鏡
其實運鏡在前兩部分也有涉及,不過這一部分,我們玩得更純粹(炫技)一點。
360 度環繞一下。
再環繞一下。
空拍一下。
再追個車。
這穩定度,感覺已經可以把 Seedance 1.0 Pro 當無人機來使用了。
五、物理動態效果
這部分主要考驗的是 Seedance 1.0 Pro 能不能壓得住牛頓他老人家的棺材板。
這段視訊涉及到馬匹奔跑、蒸汽龐克齒輪運轉、水花濺起、毛髮飄動等要素。
每個要素單獨拿出來說,都容易出問題。
但是這段視訊,除了馬背上的鬃毛稍微有些僵硬外,我幾乎挑不出其他毛病了。
地球上的物理定律太簡單了,我們再增加一點難度,太空物理。
還行,牛頓沒什麼意見。
水中來一個。
頭髮和衣服的漂浮、水中泡沫、水底波紋,都很符合真實世界定律。
塗口紅,皮膚的張力非常真實。
騎摩托車的效果也很絲滑。
包括縮時攝影效果。
愛情片橋段裡經常出現的一起捏陶罐,現在也能做到了。
而且有趣的是,捏陶罐最重要的不是陶罐本身,而是肢體接觸,這兩人的手從頭到尾都沒分開過。
六、風格化
即夢的風格化一致性,一直是我認為做得最好的,沒有之一。
這是特定風格下的一致性效果:
男人放下槍,掏出一塊麵包,吃了起來。
對比前面,龐德是真正的硬漢,而這個年輕人則帶了點別的情緒,像是第一次上戰場手足無措的孩子。
就真的,非常細膩。
還有之前我在短視訊裡做的像素化效果,只有 Seedance 1.0 Pro 能很好地呈現出來。
動漫風格,雙手不斷在水中掙扎。鏡頭切換,特寫,男主角恐懼的雙眼。
兩個很有風格特色的插畫風格。
寫在最後
以上,相信大家看完後,對於 Seedance 1.0 Pro 已經有一個比較清晰的認知了。
可以說,Seedance 1.0 Pro 這個新晉的榜首確實名符其實,在角色動作、表情與情緒、物理定律、運鏡能力、風格一致性、語義理解上都沒有短板,都處於第一梯隊的領先水準。
而且在體育運動、表情與情緒處理、風格一致性方面,還經常會給人帶來驚喜。
感覺,Seedance 1.0 Pro 將會在榜單上盤踞一段時間了。
當然,其他友商也不會閒著,都在虎視眈眈。
AI 視訊,確實競爭越來越激烈了。
說白了,不斷競爭之下,最終受益的還是我們這群用戶。
現在,火山引擎也把 Seedance 1.0 Pro 開放給了企業用戶。大約每 5 秒的 1080P 視訊價格是 3.67 元。
也將於今日在豆包 App 全面上市,打開豆包 App 對話框,選擇「照片動起來」,輸入文字指令或上傳圖片,就能體驗了。
所以,有競爭是好事啊。
其實,還是很感慨的。
作為從 Runway 時代就開始玩 AI 視訊的人,這兩年見過許多很棒的 AI 視訊產品,有些名噪一時,卻逐漸掉隊。
有些不聲不響,一直默默追趕。有些出道就驚艷世人,還在勇攀高峰。
希望榜單裡,常看到國產模型的名字。
僅願。
國運昌隆。
以上,既然看到這裡了,如果覺得不錯,隨手點個讚、按個「在看」、分享出去三連結吧,如果想第一時間收到推播,也可以給我一個星號標註⭐~謝謝你閱讀我的文章,我們下次再見。
>/ 作者:卡茲克、水杉
>/ 投稿或爆料,請聯繫信箱:wzglyay@virxact.com