Stable Diffusion官方終於進展到影片了——
發表生成式影片模型Stable Video Diffusion(SVD)。
Stability AI官方部落格顯示,全新SVD支援文字到影片、圖像到影片的繪製:
並且還支援物體從單一視角到多視角的轉化,也就是3D合成:
根據外部評估,官方宣稱SVD甚至比runway和Pika的影片生成AI更受使用者歡迎。
雖然目前只發表了基礎模型,但官方透露「正計畫繼續擴充,建立類似於Stable Diffusion的生態系統」。
目前論文程式碼權重已上線。
最近影片生成領域不斷出現新玩法,這次輪到Stable Diffusion出招,以至於網友們的第一反應就是「快」,進步太快!
但僅從Demo效果來說,更多網友們表示並沒有感到很驚喜。
雖然我喜歡SD,而且這些Demo也很棒……但也存在一些缺陷,光影不對、而且整體不連貫(影片格與格之間閃爍)。
但整體來說這是個開始,網友對SVD的3D合成功能還滿是看好:
我敢打賭,很快就會有更好的東西出來,到時候只要描述一下,就會得到一個完整的3D場景。
SD影片官方版來襲
除了上面展示的,官方還發表了更多Demo:
SVD的研究論文目前也已發表,據介紹SVD基於Stable Diffusion 2.1,用約6億個樣本的影片資料集預訓練了基礎模型。
可輕鬆適應各種下游任務,包括透過對多視圖資料集進行微調從單個圖像進行多視圖合成。
微調後,官方公布的是兩種圖像到影片模型,可以以每秒3到30影格之間的自訂畫面播放速率生成14(SVD)和25影格(SVD-XT)的影片:
之後又微調了多視角影片生成模型,叫做SVD-MV:
根據測試結果,在GSO資料集上,SVD-MV得分優於多視角生成模型Zero123、Zero123XL、SyncDreamer:
值得一提的是,Stability AI表示SVD目前僅限於研究,不適用於實際或商業應用。SVD目前也不是所有人都可以使用,但已開放使用者候補名單註冊。
影片生成大爆發
最近影片生成領域呈現出現「混戰」的局面。
前有PikaLabs開發的文字生影片AI:
後又有號稱史上最強大的影片生成AIMoonvalley推出:
最近Gen-2的「運動筆刷」功能也正式上線,指到哪畫哪
現在SVD又出現了。
但文本到3D生成方面好像還沒有太多進展,網友對這一現象也很是困惑。
有人認為資料是阻礙發展的瓶頸:
還有網友表示原因在於強化學習還不夠強:
加入電腦王Facebook粉絲團