先給一張側臉(關鍵影格1):
再給一張正臉(關鍵影格2):
然後僅僅根據這兩張圖片,AI便能產生整個運動過程:
而且不只是簡單的那種,連在運動過程中的眨眼動作也處理的很到位。
效果一出,便在Reddit上引發了不少熱議:
僅需2個關鍵影格,如何完成完整運動?
- 不需要冗長的訓練過程。
- 不需要大量的訓練資料集。
這是論文作者對本次工作提出的兩大亮點。
具體而言,這項工作就是基於關鍵影格將影片風格化。
先輸入一個影片序列I ,它由N個影格組成,每一影格都有一個掩膜Mi來劃分感興趣的區域。
與此前方法不同的是,這種風格遷移是以隨機順序進行的,不需要等待順序靠前的影格先完成風格化,也不需要對來自不同關鍵影格的風格化內容進行顯式合併。
也就是說,該方法實際上是一種翻譯過濾器,可以快速從幾個異構的手繪示例Sk 中學習風格,並將其「翻譯」給影片序列I 中的任何一影格。
這個圖像轉換框架基於U-net實現。並且,研究人員採用基於圖像塊(patch-based)的訓練方式和抑制影片閃爍的解決方案,解決了少樣本訓練和時間一致性的問題。
而為了避免過擬合,研究人員採用了基於圖像塊的訓練策略。
從原始關鍵影格(Ik)中隨機抽取一組圖像塊(a),在網路中產生它們的風格化對應塊(b)。
然後,計算這些風格化對應塊(b)相對於從風格化關鍵影格(Sk)中取樣對應圖像塊的損失,並對誤差進行反向傳播。
這樣的訓練方案不限於任何特定的損失函數。本項研究中,採用的是L1損失、對抗性損失和VGG損失的組合。
另一個問題便是超參數的最佳化。
這是因為不當的超參數可能會導致推理品質低下。
研究人員使用網格搜索法,對超參數的4D空間進行採樣:Wp——訓練圖像塊的大小;Nb——一個batch中塊的數量;α——學習率;Nr——ResNet塊的數量。
對於每一個超參數設置:
- 執行給定時間訓練;
- 對不可見影格進行推理;
- 計算推理出的影格(O4)和真實值(GT4)之間的損失。
而目標就是將這個損失最小化。
團隊介紹
這項研究一作為Ondřej Texler,布拉格捷克理工大學電腦圖形與互動系的博士生。
而除了此次的工作之外,先前他和團隊也曾做過許多有意思的工作。
例如一邊畫著手繪畫,一邊讓它動起來。
再例如給一張卡通圖片,便可讓影片中的你頂著這張圖「聲情並茂」。
想了解更多有趣的研究,可點下方連結。
參考鏈接:
- Interactive Video Stylization Using Few-Shot Patch-Based Training
- Few-Shot Patch-Based Training (Siggraph 2020) - Dr. Ondřej Texler - Link to free zoom lecture by the author in comments