蘋果研究人員開發出可「看」到並理解螢幕內容的AI

蘋果研究人員已開發出一種新的人工智慧系統，可以理解對螢幕上實體的模糊參考，以及對話和背景上下文，進而實現與語音助手更自然的互動。 31ef0d87e4efbf301a2f09f323552a5f

根據週五發表的一篇論文，蘋果研究人員已開發出一種新的人工智慧系統，可以理解對螢幕上實體的模糊參考，以及對話和背景上下文，進而實現與語音助手更自然的互動。

該系統名為ReALM（Reference Resolution As Language Modeling，基於語言模式的螢幕參考解析），利用大型語言模型參考解析的複雜任務（包括理解對螢幕上視覺元素的參考）轉換為純語言建模問題。這使得ReALM在參考解析任務上比現有方法取得了顯著的性能提升。

「能夠理解上下文，包括參考，對於對話助手來說是必不可少的，」蘋果研究團隊寫道。「讓使用者能夠發出關於他們在螢幕上所看到內容的查詢，是確保語音助手真正無需手動操作體驗的關鍵一步。」

延伸閱讀：蘋果大模型MM1終於要加入戰局了！高達300億參數、多模態、MoE架構

增強對話助理

為了處理基於螢幕的參考，ReALM的一項關鍵創新是透過解析螢幕上的實體及其位置，重建螢幕並生成捕捉視覺佈局的文字表示。研究人員證明，結合特別為參考解析微調語言模型，可以在這項任務上超越GPT-4。

研究人員寫道:「我們展示了在不同類型的參考上，與具有類似功能的現有系統相比，可以獲得大幅改進，我們最小的模型在螢幕參考上獲得了超過5%的絕對增益。我們較大的模型顯著優於GPT-4。」

▲ Apple 的 AI 系統 ReALM 可以參考螢幕上的資料並理解，例如在這個範例中顯示的「260 個樣品銷售」列表，進而實現與語音助理的更自然的互動。（圖片來源：arxiv.org）

實際應用和限制

這項研究凸顯了專門的語言模型在生產系統中處理參考解析等任務的潛力，因為由於延遲或運算限制，無法使用大型端到端模型。透過發表這項研究，蘋果暗示了其將繼續投資這項研究，使Siri和其他產品更加善於對話和理解上下文。

不過，研究人員警告，僅依賴於自動解析螢幕存在局限性。處理更複雜的視覺參考，如區分多個圖像，可能需要結合電腦視覺和多模態技術。

延伸閱讀：蘋果論文透露可將大型語言模型裝進快閃記憶體，日後iPhone可直接流暢跑AI模型

蘋果在AI領域奮起直追

儘管蘋果在快速發展的 AI 領域落後於競爭對手，但它正悄悄地在人工智慧研究方面取得重大進展。

從融合視覺和語言的多模態模型，到人工智慧動畫工具，再到使用低成本構建高性能專用 AI 的技術，蘋果研究實驗室的穩步突破表明，其 AI 雄心正在迅速擴大。

但這個以保密著稱的科技巨頭正面臨著來自Google、微軟、亞馬遜和 OpenAI 等公司的激烈競爭，這些公司已經在搜尋、辦公軟體、雲端服務等領域積極將生成式人工智慧產品化。

蘋果長期以來一直是快速跟隨者而非先行者，現在它正面臨著一個由人工智慧以前所未有的速度改變的市場。該公司備受關注的全球開發者大會將在 6 月舉行，預計屆時將推出新的大型語言模型框架、「Apple GPT」聊天機器人以及其生態系統中其他的人工智慧功能。

「我們很高興能在今年晚些時候分享我們在人工智慧方面正在進行的工作細節，」首席執行長提姆·庫克最近在一次財務電話會議上暗示。儘管蘋果很少正面回答任何問題，但很明顯，其在人工智慧的努力範圍很廣。

然而，隨著人工智慧主導權爭奪戰的升溫，這家 iPhone 製造商的姍姍來遲使其處於一種非同尋常的弱勢地位。雄厚的資金、品牌忠誠度、頂尖的工程技術和緊密整合的產品組合使其有機會獲勝，但是在這場高風險的競爭中，沒有什麼東西是可以確定的。

一個普遍存在、真正智慧計算的新時代即將到來。到了6月，我們將看到蘋果是否已做好足夠準備，確保能在塑造這個新時代中扮演一個角色。

延伸閱讀：急起直追？庫克：蘋果將在生成式 AI 領域「開闢新天地」，外界推估 WWDC 2024 見真章
延伸閱讀：考慮中國法規，蘋果選擇百度作為蘋果在中國的AI技術合作夥伴
延伸閱讀：庫克終於脫口對生成式AI表態：蘋果早就已經上車，最好的AI PC是Mac

資料來源：

Apple researchers develop AI that can ‘see’ and understand screen context

加入電腦王Facebook粉絲團

蘋果研究人員開發出可「看」到並理解螢幕內容的AI

增強對話助理

實際應用和限制

蘋果在AI領域奮起直追

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本