最新LISA大模型可以理解人話，精準分割出任何圖案

根據發表的論文來看，LISA是一個多模態大模型，它在這次研究中主攻的任務便是推理分割（Reasoning Segmentation）。 A1837d73b003d2508b5034c163c9b8c3

「分割一切」這件事，又有一項重量級研究出現了。

香港中文大學終身教授賈佳亞團隊，最新提出LISA大模型——理解人話，精準分割。

例如讓AI看一張早餐圖，要辨識「哪個是柳丁」是比較容易的，但若是問一句「哪個食物維他命C最高」呢？

畢竟這不是一個簡單分割的任務了，而是需要先認清圖中的每個食物，還要對它們的成分有所瞭解。

但現在，對於這種人類複雜的自然語言指令，AI已經是沒有在怕的了，來看下LISA的表現：

最新LISA大模型可以理解人話，精準分割出任何圖案

結果，LISA精準無誤的將橘子分割了出來。

再「餵」給LISA一張圖並提問：

是什麼讓這位女士站的更高？請把它分割出來並解釋原因。

LISA不僅辨識出來了「梯子」，而且也對問題做出了解釋。

還有一個更有意思的例子。

許多朋友在看到這個大模型的名字，或許會聯想到女子組合BLACK PINK裡的Lisa。

賈佳亞團隊還真的拿她們的照片做了個測試——讓LISA找Lisa：

最新LISA大模型可以理解人話，精準分割出任何圖案

真的很會玩！

基於LISA，複雜分割任務拿下SOTA

根據發表的論文來看，LISA是一個多模態大模型，它在這次研究中主攻的任務便是推理分割（Reasoning Segmentation）。

這個任務要求模型能夠處理複雜的自然語言指令，並給出精細的分割結果。

最新LISA大模型可以理解人話，精準分割出任何圖案

如上圖所示，推理分割任務具有很大的挑戰性，可能需要借鑒世界知識（例如，左圖需要瞭解「短鏡頭更適合拍攝近物體」），或進行複雜圖文推理（如右圖需要分析圖像和文本語義，才能理解圖中「柵欄保護嬰兒」的含義），才能獲得最終理想的分割結果。

儘管當前多模態大模型（例如Flamingo[1], BLIP-2[2], LLaVA[3], miniGPT-4[4], Otter[5]）使得AI能夠根據圖像內容推理使用者的複雜問題，並給出相應的文本分析和回答，但仍無法像視覺感知系統那樣在圖像上精確定位指令對應的目的地區域。

因此，LISA透過引入一個<SEG>標記來擴展初始大型模型的詞彙表，並採用Embedding-as-Mask的方式賦予現有多模態大型模型分割功能，最終展現出強大的零樣本泛化能力。

同時，這項工作還創建了ReasonSeg資料集，其中包含上千張高品質圖像及相應的推理指令和分割標注。

那麼LISA這種精準理解人話的分割能力，具體是怎麼做到的呢？

最新LISA大模型可以理解人話，精準分割出任何圖案

首先將圖像ximg和文本xtxt送到多模態-大語言模型F（在實驗中即LLaVA），得到輸出的文本結果，如果此時文本結果包含<SEG>標記，則表示需要通過輸出分割預測來解決當前問題。反之，若不包含<SEG>標記，則無分割結果輸出。

如果存在標記，則將<SEG>標記在多模態大模型F最後一層對應的embedding經過一個MLP層得到hseg，並將其與分割視覺特徵f一起傳遞給解碼器Fdec（其中分割視覺特徵f由輸入編碼器Fenc對圖像ximg進行編碼得到）。

最終，Fdec根據生成最終的分割結果M。

LISA在訓練過程中使用了自回歸交叉熵損失函數，以及對分割結果監督的BCE和DICE損失函數。

實驗證明，在訓練過程中僅使用不包含複雜推理的分割資料（透過將現有的語義分割資料如ADE20K[6]，COCO-Stuff[7]以及現有指代分割資料refCOCO系列[8]中的每條資料轉換成「圖像-指令-分割Mask」三元組），LISA能在推理分割任務上展現出優異的零樣本泛化能力。

此外，進一步使用239個推理分割資料進行微調訓練還能顯著提升LISA在推理分割任務上的性能。而且LISA還表現出高效的訓練特性，只需在8張具有24GB顯存的3090顯卡上進行10,000次訓練反覆運算，即可完成7B模型的訓練。

最終，LISA不僅在傳統的語言-圖像分割指標（refCOCO、refCOCO+和refCOCOg）上展現出優異性能，還能處理以下分割任務情景：⑴複雜推理；⑵聯繫世界知識；⑶解釋分割結果以及⑷多輪對話。

最新LISA大模型可以理解人話，精準分割出任何圖案

在有複雜情景的ReasonSeg資料集上，LISA顯著領先於其他相關工作，進一步證明其出色的推理分割能力。

最新LISA大模型可以理解人話，精準分割出任何圖案

線上可試玩

值得一提的是，LISA的推理分割能力已經出了demo，可以線上體驗。

最新LISA大模型可以理解人話，精準分割出任何圖案

操作也很簡單，只需填寫「指令」，然後上傳要處理的圖像即可。

若是不會描述指令，Demo下方也給出了一些示例，也可以參考。

最新LISA大模型可以理解人話，精準分割出任何圖案

GitHub連結：https://github.com/dvlab-research/LISA
論文連結：LISA:REASONINGSEGMENTATIONVIALARGE LANGUAGEMODEL
Demo連結：LISA: Reasoning Segmentation via Large Language Model

參考連結：

加入電腦王Facebook粉絲團

最新LISA大模型可以理解人話，精準分割出任何圖案

基於LISA，複雜分割任務拿下SOTA

線上可試玩

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本