視覺立體感如何產生
人類可以透過視覺分辨物體的遠近,最主要的原因是因為雙眼的瞳孔為左右分開排列,左右眼在觀看同一景物時,會在視網膜產生基本相似但是有有些微差別的圖像,這種雙眼視覺形成的視差信號送至大腦之後,大腦會將2幅圖像之間的差異進行整合,可以輔助產生精細的深度知覺,進而產生立體視覺,讓人類可以判斷出眼睛到物體之間的精準距離。
在一般攝影技巧中,我們可以光學的方式,靠著加大光圈或是使用長焦端的手法,縮小相機的景深(Depth of field,對焦點前後相對清晰的成像範圍),可以讓畫面中的部分景物維持清晰,但其他部分則變得模糊。
由於智慧型手機受限於機構的限制,不容易透過光學方式創造縮小景深,所以有許多智慧型手機採用人眼立體視覺的概念,透過雙鏡頭的方式產生視差,並藉此測量景物之間的距離,最後再將遠方的景物模糊化,以後製的方式模擬淺景深效果。
舊款Pixel的測距方式
Pixel系列智慧型手機的人像攝影模式,讓使用者可以輕鬆拍下具有淺景深效果的照片,但是這些手機都沒有雙鏡頭的設計,那麼它是怎麼達到這種效果的呢?
Google的研發團隊先前曾在部落格上說明,過去的Pixel 2會先使用HDR+技術拍下清晰的圖像,再透過卷積神經網路(Convolutional Neural Network,CNN)以人工智慧輔助分析照片,並搭配相位偵測自動對焦(Phase-Detect Auto-Focus,PDAF。也稱為雙像素Dual-Pixel Autofocus,DPAF)所測得的距離資訊,來標定畫面中的主角,並將主角以外的區域模糊化,創造淺景深效果。
延伸閱讀:
關於相位偵測自動對焦的細節,可以參考Canon提供的說明。
An Introduction to Dual Pixel Autofocus (DPAF)
(下頁還有Pixel 3的創新技術)
Pixel 3強化人工智慧效果
Google並沒有在最新的Pixel 3加入雙鏡頭的設計,取而代之的是透過更先進的人工智慧,提升辨識照片中的主角與背景的準確度,如此一來就能更精細地將照片的主角分離出來,並在背景套用模糊效果。
在Pixel 3的影像處理過程中,除了會參考由相位偵測自動對焦所得的數據之外,還會分析影像邊緣的銳利度(原始圖像中景深以外的部分邊緣銳利度較低),或是分析物品在畫面中所佔的大小與人臉尺寸比例,來判斷物品在空間中的位置(遠的東西在畫面中比較小)。
在收集以上分析方式所提供的「線索」之後,下一步就是需要透過演算法將各項資料轉換成有用的距離數據。如果使用人工方式手動微調演算法,將會使困難度大增,然而這時候可以利用機器學習的方式,大幅簡化工作難度。
Goolge的開發人員使用以TensorFlow開發的卷積神經網路進行機器學習,讓系統以相位偵測自動對焦測得的數據進行訓練,透過不斷校正來增加透過影像辨識預測距離的準確度。
透過拍照不斷訓練系統
訓練卷積神經網路系統需要使用大量包含相位偵測自動對焦數據的照片與對應的高準確度景深分部資訊,此外由於淺景深效果主要應用於肖像拍攝模式,因此需要準備許多類似的情境照片。
為了要準備上述照片,開發人員自行設計了能夠一此拿著5支Pixel 3智慧型手機拍照的特製支架,並透過Wi-Fi無線網路遙控5支手機,讓他們能夠在同一瞬間同步拍照,如此一來就能透過動態與多視點立體成像(Motion and Multi-View Stereo)算出景深分部資訊。
使用5支手機拍照的最大好處,在可以透過多方向的視差消除誤差,並確保畫面中的任一像素可以被其他任意手機補捉到,降低無對應像素(某特定像素在其他相機中沒有出現)的問題,以增加訓練的精準度。
在實際拍攝時,系統會使用TensorFlow Lite機器學習平台與Pixel 3的高效能繪圖處理器,透過卷積神經網路處理完整解析度的照片與數百萬像素的相位偵測自動對焦資訊,並在分離主角與背景後產生具淺景深效果的照片。雖然系統無法精確測量出所有景物的切確距離,但是能夠測出彼此的相對距離,對於照片後製來說已經足矣。
如果以Google Camera App 6.1或更新版本的肖像模式拍攝照片,系統會將距離資訊內嵌於照片附加資訊中,如此一來使用這就可以在Google Photos中自由調種離焦的程度,改變照片呈現的風格
如果想要進一步瞭解Pixel 3的淺景深效果,可以參考這個相簿內的範例照片。
加入電腦王Facebook粉絲團