透過真人進行評分
Google Cilps是款不需額外操作,就能自動判斷錄影時機的攝影機,其設計理念具有3大要點,首先開發團隊希望所有的運算能在Cilps上完成,並保有長效的電池續航力與降低攝影延遲,這樣的優點是不需上傳任何資料到伺服器,不但更能保障使用者隱私,也能在沒有網路連線的環境使用。
再者開發團隊將產品規劃以拍攝短片為主,而非靜態照片,不但有助於記錄歡樂時光的氛圍,也能透過較長的影片彌補單張照片不易抓到完美時機的缺陷。最後,Cilps只專注於透過內容的趣味性判斷錄影的起迄時間,並不需要考慮構圖、光線、色調等攝影技巧。
接下來的問題,就是如何訓練Cilps的演算法,讓它知道怎麼樣的場景是有趣的。如同一般機械學習的方式,開發團隊首先著手於建立由數千部不同主題影片構成的資料庫,並讓攝影與影片剪輯專家評定影片的優劣,讓演算法能夠作為衡量影片趣味的素材。然而這樣又會產生新的問題,那就是我們該如何將影片有系統、平順地從0~100分的範圍中評分。
為了解決這個問題,開發團隊準備了第二套資料庫,他們將影片切割為許多片段,隨機挑選2筆片段,詢問受測者(人類)他們比較喜歡哪筆。讓受測者以這種「2選1」的方式進行評定,比直接為影片定出分數容易許多,而且受測者給予的答案也相當接近,當分析了從1,000支影片中切出的5,000萬筆片段「2選1」數據後,就能透過計算的方式得到整部影片(而非片段)的分數。(對,數字沒錯。靠人類分析5,000萬筆片段是件相當累人的工作)
將資料庫交給類神經網路
有了評分的資料後,接下來開發團隊要定義出「影片有趣的原因」,於是他們假設影片中如人物、動物、樹木……等景物可能是吸引人的元素,並從Google圖像資料庫超過27,000筆不同的標籤中挑選數百種重要的標籤,用於辨識影片中的景物。
再使用伺服器級的電腦進行訓練過後,開發團隊為運算效能有限的裝置打造了較小巧的MobileNet Image Content Model演算法模型,並挑選更為關鍵的標籤,以利將運算能力集中於刀口上。
訓練的最後一步,就是將Image Content Model演算法模型計算出的數據,與人類評定的分數互相比較,如此一來演算法就知道哪些特徵是人類覺得有趣的部分。如此一來在未來的操作過程中,即便畫面中的景物從未出現於訓練資料中,但系統仍然可以判斷哪些是人類覺得有趣的部分,進而自行判斷最佳拍攝時機。
開發團隊也提到,由於Clips並不像自走車那類的裝置具有移動能力,需要使用者擺放於特定位置或是配戴於身上,因此「橋角度」還需依賴使用者的人肉智慧。