ChatGPT 大紅的時候,人們就開始討論它會不會顛覆搜尋引擎。畢竟,它可以為各種問題提供高品質的回答,「智慧」到不可思議。直到最近,Google內部啟動了「Red Code(紅色警報)」,圍繞 ChatGPT,全面調整了明年在 AI 領域的工作。
紅色警報是部分矽谷巨頭在公司核心業務面臨重大挑戰時,採用的一種內部回應機制。根據《紐約時報》,Google CEO Sundar Pichai 發起了一系列會議商討人工智慧戰略。Google內部包括研發、安全和信任等多個部門的團隊被重新分配工作任務,輔助開發新的 AI 技術原型和產品。這樣的變化會一直持續到今年 5 月的 Google I/O。
Google是全球搜尋引擎市場的絕對霸主,全球市場占有率超過 90%。有人認為Google對 ChatGPT 的反應太慢,已經火燒眉頭才匆忙迎戰。其實,Google對自然語言(NLP)的技術儲備從來沒有丟著不管,像是去年 I/O 大會上推出的對話系統 LaMDA 就是成果之一。但在當時,就像 AI 揚聲器沒法替代搜尋引擎,人們普遍也不認為對話機器人技術會在短期內創造出搜尋引擎的替代品。
事實上,即使是 ChatGPT 這種新的問答技術,短期內也很難顛覆搜尋引擎。但讓Google緊張的是:當競品搜尋引擎開始引入新的技術,會給產品體驗帶來提升,這會在今天Google主導的搜尋市場撕開一條裂縫。而作為Google搜尋業務基石的廣告模式,則可能成為Google引入相同技術的巨大絆腳石。
「這樣的技術時機,為更多競爭創造了機會。」搜尋引擎創業公司 Neeva 的創始人說。他表示,在 2021 年,他還很感到很沮喪,「因為很難擺脫Google的鐵腕控制。」而如今,新的技術讓他看到了借力、突破的契機。
搜尋引擎:不完美的產品
想要理解 ChatGPT 到底為何會威脅搜尋引擎,我們首先需要回歸到搜尋引擎的本質。
面對搜尋框,輸入關鍵字,這是人們習慣的方式。搜尋引擎甚至讓人們學會「帶著一個問題,換不同的關鍵字」。但這並非搜尋體驗的終極形態,而是一種妥協。因為機器不能很好地理解人的問題,只能退而求其次,以關鍵字來索引不同的網頁和資訊。
Google搜尋引擎部門副總裁 Pandu Nayak 在 3 年前解釋搜尋引擎的工作原理:「我們的工作就是找出你正在搜尋的內容,並從網上提供有用的資訊……雖然這些年來,我們一直在不斷地提高語言理解能力,但是有時候我們仍然不能完全正確地理解它,特別是對於複雜的、或者對話性的查詢。這就是為什麼人們經常使用關鍵字的原因之一,他們輸入一連串以為我們會理解的單詞,而非自然地提出一個問題。」
當時,Google剛剛把語言處理大模型 BERT 的最新技術融入搜尋產品裡。裝配最新的語言理解能力後,機器剛剛學會正確理解像「美學家經常站著工作嗎?(do estheticians stand a lot at work)」這樣的描述,能夠把句子裡的 Stand 理解成「站立」這個動作,而不是和「stand along」(獨立)這個意思混淆。
這個看似微小的進步背後,是自然語言處理的又一次突破。語言的最大特點之一是一維線性,而人類大腦在理解的時候,能夠突破線性的結構,讓語言成為表徵複雜世界的工具。所以,人能夠在遇到 Stand 這個詞的時候,根據語境和經驗將它處理成「站立」,或者是「獨立」、「代表」等其它意思。
對於不具備人類肉身經驗的機器,只能透過學習字元本身來理解語言。BERT 的創新之處在於充分理解上下文之間句子的含義,讓機器學習每一個單詞和其它所有單詞的關係,更準確地理解語義。
僅僅兩年過去,機器理解自然語言的能力就變得不可同日而語。ChatGPT 讓人們體驗了有史以來最好的對話機器人是什麼樣子。科技作者 Parmy Olson 翻出了自己的Google搜尋記錄,將最近的 18 個問題又問了一次 ChatGPT,對比自己的體驗,她認為其中 13 個問題上,ChatGPT 給出的答案更好,也更滿足她的需求。例如,想知道「煉乳還是脫脂奶哪一個比較適合做南瓜派」,ChatGPT 給出一段分析,就比搜尋引擎給出的一堆連結更好。
而在我自己的寫作中,也嘗試同時使用 ChatGPT 和搜尋引擎來收集資料。比如最近在寫一篇與蛋白質設計相關的文章,我就同時問搜尋引擎和 ChatGPT,「什麼是擴散模型?」「決定蛋白質結構的因素有哪些?」。搜尋引擎給出的連結往往更加全面,但是 ChatGPT 組織資訊的方式更加簡練,能夠説明整合資訊、梳理段落要點。
這一切都說明,讓機器直接回答一個查詢問題的可能性已經具備了。搜尋引擎的體驗提升的臨界點已經呼之欲出,其中的關鍵就是生成式 AI(Generative AI)。搜尋引擎的未來,不僅僅是索引網頁與連結,而是為每一個查詢生成相應的摘要、回答。這便是「從搜尋到生成」。
如今,來到了從技術到產品化的微妙時間點。根據《紐約時報》看到的一份備忘錄,最近「Red Code」啟動後一系列的調整和應對動作,被Google看作一場不傷害使用者或社會的情況下部署其先進人工智慧的努力。
一位來自Google的經理表示,Google必須進入這次尖端比賽,否則行業就可能不理睬Google,繼續前進。他同時也表示,對於其它小公司而言,發表新型工具的擔憂更少。
「在野黨」挑戰Google
搜尋引擎+ChatGPT 有著巨大的潛力,但想要看到成熟的產品還需要更多時間。
如果現在,你把 ChatGPT 當百科問答來用,很有可能會被騙進坑裡——因為它擅長一本正經地胡說八道、假裝自己「有知識」。一旦到了專業領域,這種胡說八道也只有專家才能分辨。Open AI 的 CEO Sam Altman 也表示:「我們正在試圖阻止 ChatGPT 隨便編造事實」。
這也是為什麼,程式設計QA社群 Stack Overflow 很快就宣布:不接受 ChatGPT 產生的答案,官方表示:「主要問題在於,ChatGPT 產生的答案錯誤率很高,卻看起來非常對」。
技術能夠提供怎樣的價值,往往在於如何將其封裝進產品,對生成式 AI 也是如此。但正如Google經理所擔憂的,一些創業公司在產品探索上更快一步。
Neeva 便是代表,公司的創始人 Sridhar Ramaswamy 曾在Google工作 15 年,離職前是廣告高級副總裁。另一位聯合創始人則是 YouTube 的商業化副總裁。和此前著名的 DuckDuckGo 一樣,作為搜尋引擎,它想透過不追蹤隱私、不洩露個人資訊來挑戰Google。
「現代網際網路已經變得嚴重依賴廣告,一個重要的原因,就是大型科技公司自私地利用消費者的資料和隱私。」Ramaswamy 表示。他從Google離職,想改變用消費者資料賺錢的遊戲,帶領一個新團隊,想用更合理的產品來吸引人們。成立於 2020 年的 Neeva 已經進行過兩輪融資,獲得了包括紅杉資本、格雷洛克在內的 7700 萬美元。
除了沒有廣告、不追蹤個人資料,更先進的搜尋引擎可以是什麼樣子?一個重要的方向是私人化,即能夠為每個人的習慣和偏好定制。生成式技術無疑會帶來重要的變化——為查詢生成相匹配的內容。
微博 AI Lab 負責人張俊林長期從事 NLP 和推薦搜尋相關的研究和工作,他認為,下一代搜尋引擎的存在形式很可能是一個智慧助手 APP。在技術上,則是上一代標籤索引+新一代生成式技術的結合。
以 pagerank 為代表的演算法,讓Google成為了上一代搜尋引擎領域的霸主。它以Google的創始人賴利·佩吉(Larry Page)的姓氏命名,這套演算法的核心思想是透過運算網頁彼此之間的連結,來判斷網頁的相關性和重要性。
在未來的搜尋引擎中,當你查詢一個問題,類似 ChatGPT 這樣的生成式技術,能夠事先為你閱讀相關網頁,再產生答案。同時,為了確認答案來源的可靠性,傳統搜尋引擎的會在同時附上參考來源。就像你在閱讀文章的時候可以隨時查詢注釋一樣。
Neeva 最新展示的產品功能,恰好在朝這個方向發展。Ramaswamy 看來,網站的互相連接可以顯示出資訊源的權威性。也因此,傳統的搜尋模式有很大價值。Neeva 想做的,是整合兩個技術的優勢來提供更好的產品。
Neeva 目前正在測試 NeevaAI,與 ChatGPT 的問答體驗相似,當你輸入一個問題之後,「展示一個綜合的答案,總結自與查詢相關的網站」。同時可以點擊查看與之相關的網頁來源,「參考文獻和引文直接嵌入答案,讓使用者能夠確定結果的真實性和可信度。」
這個新的功能會出現在接下來的新版 App 中,「這樣你就不需要在無關的連結之間滑動篩選」。Ramaswamy 演示了幾個 Demo,搜尋 Taylor Swift,Neeva 會生成她的人物小傳,並提供來源;你也可以問「摩洛哥在世界盃上怎麼打敗了葡萄牙」,Neeva AI 會為你產生一篇短文,來介紹那天晚上發生了什麼。
廣告系統:Google的負重
而對於Google,想進化成先進產品形態,難點或許不在於技術,而是思考如何與已有的商業模式一致。用 Ramaswamy 的話說,「Google是自身成功的受害者」。而另外一位搜尋引擎的創業者則形容「Google有商業模式的議題」。
今天Google的廣告建立在關鍵字+連結的搜尋模式之上,當你在不同的連結之間跳轉、閱讀,也就給網頁廣告提供了展示空間;同時,使用者的瀏覽記錄成為了公司的數位石油,透過掌握使用者的訊息偏好,Google更精準地投放廣告。
十多年來,這套廣告的系統是Google主要的收入來源。2020 年,超過 80% 的收入來自網路廣告業務,為Google貢獻了 1470 億美元的營收;2021 年,1480 億美元的廣告營收貢獻了Google的 58% 的收入。
新型的搜尋引擎,與原有的廣告系統的模式存在相悖。如果生成式 AI 能夠提供答案,這就意味著,使用者會減少在連結間跳轉、瀏覽的時間——也就是減少了廣告投放的空間。「如果給你提供完美的答案,你就不需要點擊廣告了」。
另外一位前Google研究員瑪格麗特·米契爾則表示,「Google搜尋是相當保守的」,Google試圖不破壞一個正常運轉的體系。如果新的技術,會減少使用者點擊廣告的可能性,這會不會影響Google如何使用它呢?
對於創業公司來說,情況正好相反。因為它們設計產品的初衷之一,就是不依靠點擊廣告來賺錢。在思考如何將新的技術嵌入產品的時候,也不必像Google那樣,去思考如何與已經存在的商業系統自洽。Neeva 目前探索的是使用者訂閱付費,使用者可以享受免費的版本,每月進行 50 次搜尋;還可以每月付費 5.99 美元成為付費使用者,不限次數、同時享受更多功能。
語言模型、生成式 AI 的進步,必然會重塑搜尋引擎的模樣。這也是包括Google在內的科技公司所期待的。「我們正處於一個真正的歷史性時刻,NLP 的全部潛力已經達到了科幻小說的水準。」投資者、企業家和Google產品副總裁 Bradley Horowitz 說道。
而對於Google來說,不得不面對另外一個時代主題是:大公司利用資料建立的商業模式,正遭受著前所未有的嚴肅審視。Google面臨漫長的反壟斷審查的同時,一些公司正在嘗試用新技術,進入搜尋引擎這片市場。在資料合規、反壟斷更加嚴格的歐洲,也是 DuckDuckGo、Neeva 這樣的初創搜尋引擎公司率先瞄準的市場。
「通用搜尋引擎的故事已經結束了。」IDEA 研究院講席科學家,認知計算與自然語言研究中心負責人張家興表示。這也是Google已經打下的領地,以多年的技術積累,提供了最佳的通用即時索引產品。而在垂直搜尋領域,如何為特定的公司、社群、領域提供更優內容搜尋的探索才剛剛開始。但同時「大的商業模式創新,遠遠難於技術創新。」AIGC 這樣的技術出現之後,人們感受到可能性和興奮,但是會不會蘊含著打的商業模式創新呢?「整個業界都在探索」。
商業模式受最嚴監管、技術又成為了新變數,Google必須打起十二分精神規劃未來。如果資料合規與隱私問題終有一天形成新規範,那時候,新搜尋產品和隨之而來的商業模式或許也會成為場上的新存在。那時候Google會是一個怎樣的角色?他如今擁有的城邦是否會被侵蝕?這一切,等待技術和商業之間更深刻的碰撞與融合來回答。
加入電腦王Facebook粉絲團