2023 年奧斯卡頒獎禮在洛杉磯舉行,影片《媽的多重宇宙》一舉斬獲七項大獎,成為最大贏家。主演楊紫瓊也憑藉該片將奧斯卡最佳女主角獎收入囊中,成為奧斯卡歷史上首位亞裔影后。
據瞭解,這部正在被熱議的科幻電影背後的視覺效果團隊僅有 5 人,為了儘快完成這些特效鏡頭,他們選擇了 Runway 公司的技術來幫助創建某些場景,比如為圖像去除背景的綠幕工具 (The Green Screen)。
「僅僅幾次點擊就讓我節省幾個小時,我可以用這些時間嘗試三四種不同的效果,讓影片效果更好。」導演兼編劇 Evan Halleck 受訪時談道。
Runway:參與初代Stable Diffusion開發
2018 年底,Cristóbal Valenzuela 聯合其他成員創立 Runway。它是一家人工智慧影片編輯軟體提供商,致力於利用電腦圖形學及機器學習的最新進展,為設計師、藝術家和開發人員降低內容創作的門檻、推動創意內容的發展。
據 Forbes 報導,該公司年收入將近 500 萬美元,員工僅 40 人左右
除此之外,Runway 還有一個鮮為人知的身份--Stable Diffusion 初始版本的主要參與公司。
2021 年,Runway 與德國慕尼黑大學合作,構建了第一個版本的 Stable Diffusion,隨後英國初創公司 Stability AI 加大投資,為 Stable Diffusion 提供了更多模型訓練所需的計算資源和資金。不過目前 Runway 和 Stability AI 已經不再合作。
2022 年 12 月,Runway 獲得 5000 萬美元的 C 輪融資,除《媽的多重宇宙》團隊外,客戶還包括傳媒集團 CBS、MBC,廣告公司 Assembly、VaynerMedia,設計公司 Pentagram 等。
2023 年 2 月 6 日,Runway 官方推特發表 Gen-1 模型,可以透過應用文本提示或者參考圖像所指定的任意風格,將現有視訊轉換為新影片。
Today, Generative AI takes its next big step forward.
— Runway (@runwayml) February 6, 2023
Introducing Gen-1: a new AI model that uses language and images to generate new videos out of existing ones.
Sign up for early research access: https://t.co/7JD5oHrowPpic.twitter.com/4Pv0Sk4exy
Gen-1:structure + content 雙管齊下
科學研究人員提出了一個結構 (structure) 和內容 (content) 引導的 video diffusion model--Gen-1,可以依據預期輸出的視覺或文本描述,對影片進行編輯。
所謂 content,是指描述影片的外表 (appearance) 和語義的特徵,如目標物體的顏色、風格以及場景的燈光。
而 structure 則是指描述其幾何和動態的特徵,如目標物體的形狀、位置以及時間變化。
Gen-1 模型的目標是在保留影片 structure 的同時,編輯影片 content。
在模型訓練過程中,科學研究人員用到了一個由未加字幕的影片及 text-image pair 構成的大規模資料集,同時,用單目場景深度預測 (monocular depth estimates) 來表示 structure,用預訓練神經網路預測的 embedding 來表示 content。
該方法在產生過程中提供了幾種強大的控制模式:
1. 參考圖像合成模型,訓練模型使得推理的影片 content(如呈現或風格)與使用者提供的 image 或 prompt 相匹配。
在保留輸入影片(中間)structure 的同時
基於文本提示或圖像合成的影片(上及下)
2. 參考 diffusion 過程,對結構表徵 (structure representation) 進行 information obscuring,這使得開發者可以自行設定 model adhere 對於給定 structure 的相似程度。
3. 參考 classifier-free guidance,借助自訂 guidance 方法,調整推理過程,進而控制產生 clip 的時間一致性。
在該實驗中,科學研究人員:
透過在預訓練的圖像模型中引入 temporal layer,並對圖像和影片進行聯合訓練,將 latent diffusion model 擴展到影片產生中。
提出了一個 structure 和 content-aware 模型,可以在示例圖像或文本的指導下修改影片。影片編輯完全是在推理階段進行的,無需逐個影片進行訓練或預處理。
對 temporal、content 和 structure 一致性的完全控制。實驗表明,在圖像和影片資料上的聯合訓練,能夠在推理期間上控制一致性 (temporal consistency)。對於結構一致性 (structure consistency),在表徵的不同細節水準上訓練,使使用者得以在推理過程中選擇所需的設置。
一項使用者調研表明,該方法比其他幾種方法更受歡迎。
透過對一小部分圖像進行微調,可以進一步定制訓練過的模型,以產生更準確的特定 subject 的影片。
為了評估 Gen-1 的性能,科學研究人員用 DAVIS 資料集中的影片以及其他各種素材進行了評估。為了自動創建編輯 prompt,研究人員首先運行了一個 captioning 模型來獲得原始影片內容的描述,然後使用 GPT3 產生編輯 prompt。
實驗結果表明,在對所有方法產生的效果滿意度調查中,75% 的使用者更傾向 Gen-1 的產生效果。
AIGC:爭議中前行
2022 年,生成式人工智慧成為自十多年前行動和雲端運算興起以來最引人注目的技術,我們正有幸見證其應用層的萌芽,許多大模型正迅速從實驗室中走出來,撲向真實世界的各個場景。
然而,儘管有提高效率、節省成本等諸多好處,我們也需要看到,生成式人工智慧依然面臨多種挑戰,包括如何提高模型的輸出品質和多樣性、如何提高其生成速度,以及應用過程中的安全、隱私和倫理宗教等問題。
有些人對 AI 藝術創作提出質疑,更有甚者認為這是一種 AI 對藝術的「入侵」,面對這種聲音,Runway 聯合創始人兼 CEO Cristóbal Valenzuela 認為,AI 只是工具箱中一個用來給圖像等內容上色或修改的工具,與 Photoshop、LightRoom 並無二致。雖然生成式人工智慧還存在一些爭議,但它為非技術人員和創意人員打開了創作的大門,並將帶領內容創作領域走向新的可能。
- Runnway官網:https://research.runwayml.com/gen1
- GEN-1 早期註冊連結:http://bit.ly/3RxvBZr
- 論文連結:https://arxiv.org/abs/2302.03011