這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

讓3D動畫小人做一套絲滑的動作，需要手動算繪多久？ F4b3b9fc686f36807a798addd3fbb309

讓3D動畫人物做一連串很平滑的動作，需要手動算繪多久？

現在交給AI，輸入幾句話就能搞定（不同顏色代表不同動作）：看向地面並抓住高爾夫球杆，揮動球杆，小跑一段，蹲下。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

在這之前，AI控制的3D人體模型基本只能「每次做一個動作」或「每次完成一項指令」，難以連續完成指令。

現在，無需剪輯或編輯，只需按順序輸入幾條命令，3D人物就能自動完成每一套動作，全程很平滑的完成沒有停頓。

這個新AI的名字叫TEACH，由馬普所和古斯塔夫·艾菲爾大學所開發。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！網友們開始發揮各種想像開：

▲ 這樣以後拍3D動畫電影，是不是只用劇本就能搞定了？顯然，遊戲和模擬行業可以考慮一下了。

More grist to the mill in the 「text-to-graphic output」 world… impressive stuff.

Gaming and simulations an obvious application. I’m not going say the metaverse word… 😂 https://t.co/65iZEcjdf1
— Chris McKibbin (@ChrisMcKibbin) September 13, 2022

那麼，這樣的3D人物動作神器是怎麼來的呢？

用編碼器「記住」前一個動作

TEACH的架構，基於團隊不久前提出的另一個3D人體運動產生框架TEMOS。

TEMOS基於Transformer架構設計，利用人體真實運動資料進行訓練。

它在訓練時會採用兩個編碼器，分別是動作編碼器（Motion Encoder）和文本編碼器（Text Encoder），同時透過動作解碼器（Motion Decoder）輸出。

但在使用時，原本的動作編碼器就會被「扔掉」、只保留文本編碼器，這樣模型直接輸入文本後，就能輸出對應的動作。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

與其他輸入單一文本、輸出確定性動作的AI不同，TEMOS能透過單一文本，產生多種不同的人體運動。

例如「人繞圈」和「站著走幾步路停下來」這種單一指令，就能產生好幾種不同的運動方式：

▲ 轉圈方式、走路步幅都不一樣

TEACH的架構正是基於TEMOS設計，動作編碼器直接就從TEMOS那兒移植過來。

但TEACH重新設計了文本編碼器，其中包括一個名叫Past Encoder的編碼器，它會在產生每一個動作時，提供前一個動作的上下文，以增加動作與動作之間的連貫性。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

如果是一系列指令中的第一個動作，就禁用Past Encoder，畢竟沒有前一個動作可以學了。

TEACH在BABEL資料集上進行訓練，這是一個時長43小時的動作捕捉資料集，包含過渡動作、整體抽象動作、以及每一格的具體動作。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

在訓練時，BABEL的這一系列動作捕捉資料會被切分成很多個子集，每個子集中包含一些過渡動作，讓TEACH能學會過渡並輸出。

至於為什麼不用另一個資料集KIT進行訓練，作者們也給出了自己的看法。

例如在動詞類型上，BABEL出現要比KIT更具體，相比之下KIT更喜歡用do/perform這種「模糊的」詞彙。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

研究人員將TEACH與TEMOS就連續動作產生效果進行了對比。

比TEMOS效果更好

先來看看TEACH產生一系列動作的效果，連續不重複：

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

隨後，研究人員將TEMOS與TEACH進行了對比。

他們使用兩種方法對TEMOS模型進行了訓練，並分別將它們稱之為Independent和Joint，區別在於訓練用的資料上。

其中，Independent直接用單個動作訓練，在產生時將前後兩個動作用對齊、球面線性插值等方式融合在一起；Joint直接用動作對和分隔開的語言標籤作為輸入。

Slerp是一種線性插值運算，主要用於在兩個表示旋轉的四元數之間平滑插值，讓變換過程看起來更流暢。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

以產生「揮揮右手，舉起左手」連續兩個動作為例。

Independent的表現效果最差，人物當場坐下了；Joint效果好一點，但人物並沒有舉起左手；效果最好的是TEACH，在揮動右手後又舉起了左手，最後才放下。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

在BABEL資料集上測試表明，TEACH的產生誤差是最低的，除此之外Independent和Joint的表現都不太好。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

研究人員還測了測使用上一個動作的最佳格數，發現當使用前一個動作的5格時，產生的過渡動作效果最好。

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

作者介紹

▲ Nikos Athanasiou，馬普所在讀研究生，研究方向是多模態AI，喜歡探索人類行動和語言背後的關係。 Mathis Petrovich，在古斯塔夫•艾菲爾大學（Université Gustave Eiffel）讀博，同時也在馬普所工作，研究方向是基於標籤或文字說明產生真實的、多樣化人體運動。 ▲ Mathis Petrovich，在古斯塔夫·艾菲爾大學（Université Gustave Eiffel）讀博，同時也在馬普所工作，研究方向是基於標籤或文字說明產生真實的、多樣化人體運動。

▲ Michael J. Black，馬克思·普朗克智慧系統研究所主任，如今谷歌學術上論文引用次數超過62,000次。 Gül Varol，古斯塔夫•艾菲爾大學助理教授，研究方向是電腦視覺、視頻特徵學習、人體運動分析等。 ▲Gül Varol，古斯塔夫·艾菲爾大學助理教授，研究方向是電腦視覺、視頻特徵學習、人體運動分析等。目前TEACH已經開源，有興趣的人可以透過下方連結閱讀更多資料。

GitHub連結：

https://github.com/athn-nik/teach

論文連結：

加入電腦王Facebook粉絲團

這套名叫「TECH」的AI不只能畫畫，只要輸入文字就能做出流暢3D動畫！

用編碼器「記住」前一個動作

比TEMOS效果更好

作者介紹

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本