越來越強大的人工智慧系統層出不窮,發表的速度越來越快。最近,Claude 2 首次亮相,這也許是公眾可用的第二強大人工智慧系統。一周之前,Open AI 發表了 Code Interpreter,這是迄今為止最嫺熟的人工智慧模式。在這的一周前,部分人工智慧還得到了看懂圖像的能力。
可是,似乎沒有一家人工智慧實驗室提供任何的操作手冊。相反,唯一的使用者指南似乎都來自 Twitter 上面那幫網紅的推文串(treads)。對於聲稱關心自身技術是否得到正確使用的組織來說,靠小道消息傳播的文件是個奇怪選擇,但現實情況就是這樣。
我不敢說這份使用者指南已經很全,但為瞭解人工智慧的當前狀態提供一些指導還是可以的。我每隔幾個月就會為我的學生(以及感興趣的讀者)編寫一份人工智慧入門指南,而且每次都需要做出重大修改。但過去幾個月尤其瘋狂。
這份指南是基於我的經驗,純屬個人之見,重點是如何選擇正確的工具來完成任務。
主要的大語言模型
現在,當我們說起人工智慧時,我們通常指的是大型語言模型(LLM)。大多數人工智慧應用都是由 LLM 提供支援,而 LLM 當中其實基礎模型就那麼幾個,是由少數幾家組織建立的。每家公司都可以透過聊天機器人(Chatbot)直接造訪他們的模型:OpenAI 做出了 GPT-3.5 與 GPT-4, ChatGPT 以及微軟的 Bing(通過 Edge 瀏覽器造訪)背後用的就是這些模型。 Google的 Bard 品牌旗下也有多款模型。Anthropic 則建立了Claude 與 Claude 2 模型。
還有其他一些 LLM,但本文不會詳細討論。第一個是 Pi,這是由 Inflection 構建的聊天機器人。Pi 針對對話進行了最佳化,並且確實非常想成為你的朋友(說真的,不妨嘗試一下,試過你才知道我是什麼意思)。除了聊天之外,它不喜歡做太多事情,想讓它替你工作會是一次令人沮喪的練習。我們也不會介紹任何人都可以使用和修改的各種開源模型。這些通常無法造訪,或者對於今天那些只是想隨便用用的使用者來說沒有什麼用,但其實那些模型確實很有前景。未來的指南可能把它們納入進去。
下面是一份快速參考圖表,總結了 LLM 的現狀:
模型 | 可執行 | 可識圖 | 可讀取文件 | 個性 | 是什麼 | 什麼時候用 |
中性、溫和 | 這個是ChatGPT的免費版本,在去年11月推出。它的速度很快,在寫作和程式寫作方面表現很不錯。 | 速度快,價格便宜,而且能力強,但現在有些模型比它更好。而且,它沒有連接網路,所以不要把它當搜尋引擎使用。 | ||||
ChatGPT/ GPT 4 | 即將支援 | 樂於助人, 話有點多 | 目前僅限付費使用。對於大多數用途來說,這是最強大的模型,能做很多事。 | 每件事情(寫作、寫程式、摘要)都做的比3.5好,但也還沒連接網路。 | ||
ChatGPT/ Code Interpreter 外掛 | 是 | 是 | 樂於助人, 有比較為風趣 | 為ChatGPT增加了新能力,外掛和Web瀏覽還不太成熟。Code Interpreter讓人工智慧可以執行Python程式碼,可以處理文件,外掛程式一般不是太有用,Web瀏覽功能正在升級。 | Code Interpreter很擅長處理各種數據,整體而言,到目前為止,它是人工智慧實現當中最令人印象深刻的一個。 | |
Bing (創意與精確模式下用GPT4) | 是 | 是 | 較為友好, 有時會發神經 | 連接網際網際。它可以說是具有錦囊的GPT4,裡面裝有各種強大功能,最怪異的模型。創意模式下可免費使用GPT4。 | 從瀏覽器伙伴到創作藝術,很多事情都做得很好。已連接網路,有很強烈,很怪異的個性。 | |
Bard | 是 | 是 | 無 | Bard是Google使用的各種模型的大雜燴。目前產品較弱,正在逐步改進。 | 目前應該是你的最後一個選擇,但最近的更新表示還是很有前途的,幻覺較多。 | |
Claude 2 | 是 | 不罵人時, 禮貌友善 | 幾乎和GPT4一樣強大,但更「安全」,使用感覺更愉快,有100K的上下文視窗。「記憶」足以裝下一本書。 | 處理大型文件極其出色,因為上下文視窗很大,能上傳文件。因為剛推出不久,要怎麼做還不清楚。 |
前四個(包括 Bing 在內)都是 OpenAI 的系統。目前 OpenAI 的人工智慧主要就這兩種:3.5 和 4。GPT 3.5 在去年 11 月掀起了一股人工智慧熱潮,GPT 4在今年春季首次亮相,功能更加強大。新的派生版利用透過外掛程式介入網際網路及其他應用程式。外掛程式有很多,但大多數不是很有用,不過應該根據需要自己去探索一下。 Code Interpreter 是 ChatGPT 的一個極其強大的版本,可以運行 Python 程式。如果你從未為 OpenAI 付過費,那麼你就只用過 3.5。除了外掛程式版以及暫時停止瀏覽的 GPT-4 版以外,這些模型都沒有連接到網際網路。微軟的 Bing 混合使用了 4 和 3.5,並且通常是 GPT-4 家族當中第一個推出新功能的模型。比方說,Bing 既可以創建和辨識圖像,也可以在web瀏覽器中讀取文件。它已經接入了網際網路。Bing 用起來有點奇怪,但功能強大。
Google一直在測試自己的供消費者使用的人工智慧,也就是所謂的 Bard,但其實 Brad 背後由各種基礎模型提供支援,其中最近的一個叫做 PaLM 2。LLM 技術就是由谷歌開發出來的,但他們的產品非常令人失望,不過昨天公布的改進表明他們仍在致力於研究底層技術,所以我對他們仍保有希望。Brad 已經獲得了跑有限程式碼與解釋圖像的能力,但我現在一般會避免使用 Bard。
最後一家公司是 Anthropic ,他們發表了 Claude 2。Claude 最值得注意的是它的上下文視窗非常大- 即便上算是 LLM 的記憶體了。Claude 的記憶體幾乎可以容納整本書或許多個 PDF。與其他大型語言模型相比,其惡意行為的可能性更小,這意味著,它可能只會訓斥你一下。
接下來,我們講講怎麼用:
寫東西
- 最佳免費選項:Bing 與 Claude 2
- 付費選項:ChatGPT 4.0/帶外掛程式的 ChatGPT
目前,GPT-4 仍然是最強大的人工智慧寫作工具,你可以透過 Bing 免費造訪(選擇「創意模式」),也可以透過每月花 20 美元訂閱 ChatGPT 來造訪。不過,第二名的Claude差距並不大,而且有免費選項,儘管存在限制。
這些工具也已被直接整合到常見的辦公應用之中。 Microsoft Office 將納入由 GPT 提供支援的copilot,Google Docs 將整合 Bard 的建議。這些創新對寫作的影響會相當深遠。
以下是利用人工智慧説明你寫作的部分方法。
- 寫草稿,任何東西的草稿。部落格文章、論文、宣傳資料、演講、講座、選擇你自己的冒險、腳本、短篇故事——只要你能想得到,人工智慧都能做到,而且做得很好。你所要做的就是給它提示。提示製作並不神奇,但基本的提示會導致寫出來的東西很無聊,不過提高提示的水準並不難,只需與系統互動即可。只要稍加練習,你就會發現人工智慧系統當作家的能力要強得多。
- 讓你寫得更好。把你的文本複製給人工智慧。讓人工智慧改進內容,或者讓人工智慧給出建議,看看怎麼更好地適合特定受眾。讓它寫出 10 份風格截然不同的草稿。要求人工智慧把文字變得更生動,或者加入範例。用它來激發靈感,讓你寫更好。
- 幫助你完成任務。人工智慧可以做你沒有時間做的事情。像實習生一樣使用人工智慧,讓它撰寫電子郵件、創建銷售範本、為你提供商業計畫的後續步驟等等。比方說我曾在人工智慧的幫助下在 30 分鐘內完成了產品發表的各種支援工作。
- 解鎖你自己。面對挑戰艱巨的任務很容易讓人分心。人工智慧是為你提供動力的手段之一。
需要擔心的一些事情:為了回應你的請求,人工智慧很容易會產生「幻覺」並生成看似合理的事實。它可以產生完全虛假且看似完全令人信服的內容。我要強調的是:人工智慧經常撒謊。它告訴你的每一個事實或資訊都有可能是不對的。你需要檢查一切。讓人工智慧(指未連接到網際網路的模型)提供參考文獻、引言、引用以及網際網路資訊尤其危險。與其他模型相比,Bing 產生幻覺的情況往往要少一些,因為 GPT-4 產生的東西通常有事實依據,而Bing 接入網際網路意味著實際上它可以獲取事實。但幻覺不可能完全消除。
另外要注意的是,人工智慧沒法解釋自己,它只會讓你認為它可以做出解釋。如果你要求它解釋為什麼寫出了這樣的東西,它會給你一個看似合理但卻是完全虛構的答案。當你詢問它的思維過程時,它並不是去詢問自己的行為,那只是在生成看上去像是它正在這樣做的文本。這使得理解系統存在的偏見變得非常具有挑戰性,儘管這些偏見幾乎肯定是存在的。
它還可能被人不道德地用於操縱或欺騙。你要對這些工具的輸出負責。
圖像製作
- 最透明的選項:Adobe Firefly
- 開源選項:Stable Diffusion
- 最佳免費選項:Bing 或 Bing Image Creator(使用 DALL-E)、 Playgound (可使用多個模型)
- 圖像品質最佳的選項:Midjourney
可供大多數人使用的大型圖像生成器有四種:
- Stable Diffusion,這個工具是開源的,任何一款高階的電腦都能跑。開始要付出一些努力,因為你得學會正確地寫出提示,但一旦你能寫出好的提示,就會得到很好的結果。這個特別適合將人工智慧與其他來源的圖像相結合。如果你選擇Stable Diffusion,這裡有一份很好的指南(請務必閱讀第 1 部分和第 2 部分:https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview)。
- DALL-E,來自 OpenAI,Bing(必須是在創意模式下)以及 Bing Image Creator已經植入了DALL-E。這個系統很可靠,但比Midjourney要差一些。
- 截止2023年中,Midjourney是表現最好的系統。它的學習曲線在所有系統當中是最低的:只需輸入「thing-you-want-to-see --v 5.2」(最後的 --v 5.2 很重要,這會提示人工智慧採用最新的模型),你就會得到一個很好的結果。Midjourney需要透過Discord 使用。這裡是 Discord 的使用指南。
- Adobe Firefly,已內建到多款 Adobe 產品之中,但在品質方面落後於 DALL-E 和Midjourney 。不過,其他那兩個模型並未交代清楚用於訓練人工智慧的圖像來源,但 Adobe 已聲明自己僅使用其有權使用的圖像。
以下是這幾款工具的對比(每個圖像都標記了用什麼模型):
需要擔心的一些事情:這些系統是圍繞著模型構建出來的,但這些模型會存在偏見,因為用來訓練模型的網路資料存在偏見(比方說,如果你讓它創建企業家的圖片,你可能會看到更多以男性而不是女性為主角的圖片,除非你指定要創建「女性企業家」),用這個瀏覽器(https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer)可以看看實際存在哪些偏見。
這些系統還使用了網路上的藝術來進行訓練,但卻是以不透明且可能在法律和道德上存在問題的方式進行訓練的。儘管從技術上而言,你擁有所創建圖像的版權,但法律規定仍然模糊。
另外,目前這些模型是不創建文本的,只是創建了一堆看起來像文本的東西。但Midjourney已經成功了。
- 延伸閱讀:AI繪圖服務 Midjourney v5 版超進化!細節拉滿效果逼真,可正確畫出手掌
- 延伸閱讀:Midjourney 5.1 版本推出了!外媒實測 Midjourney 5.1 的表現與5.0有何不同?
提出想法
- 最佳免費選擇:Bing
- 付費選項:ChatGPT 4.0,但由於有網際網路連接,Bing 可能更好
儘管(或者事實上,由於)人工智慧存在諸多限制和怪異之處,但仍然非常適合產生創意點子。你經常需要有很多想法才能想出好想法,而人工智慧擅長以量取勝。透過提供正確的提示,你還可以迫使它變得非常有創意。在創意模式下要求 Bing 找出你最喜歡的,不同尋常的創意生成技術,比方說 Brian Eno 的間接策略(oblique strategies)或馬素·麥克盧漢(Mashall McLuhan) 的四分法,並應用它們。或者要求提供一點很奇怪的東西,比如隨便拿個專利來獲得靈感,或者你最喜歡的超級英雄......
製作影片
- 最佳動畫工具:D- iD ,用於為影片裡面的臉部製作動畫。 Runway v2 可用於文字產生影片
- 最佳聲音克隆: ElevenLabs
現在,產生這樣一段影片已經是小事一樁:包含完全由人工智慧生成的角色、去讀完全由人工智慧編寫的腳本、用人工智慧製作的聲音說話、由人工智慧製作動畫,這些通通沒問題。它還可以對人進行深度偽造。
第一個商用的文本生成影片工具最近也發表了,也就是Runway v2。它可以創建 4 秒的短片,所以這更多的是對未來的可能性的一種演示,但如果你想瞭解這個領域將來會如何發展的話,值得一看。
需要擔心的一些事情:深度偽造是一個大問題,這些系統需要以合乎道德的方式去使用。
處理文件和資料
- 對於資料(以及對程式碼有任何奇怪想法):Code Interpreter
文件處理: 大型文件或同時處理多個文件可用Claude 2,Bing 側邊欄可用於小一點的文件和網頁(側邊欄屬於Edge 瀏覽器的一部分,可以「查看」瀏覽器裡面的內容,讓 Bing 處理相關資訊,不過其上下文視窗的大小有限)
我上周寫了一篇關於Code Interpreter的文章。它是 GPT-4 的其中一種模式,在這種模式下,你可以上傳文件給該人工智慧,去編寫和執行程式碼,還可以下載該人工智慧提供的結果。它可以用來執行程式、進行資料分析(儘管你需要對統計資料和資料有足夠瞭解才能檢查它做得好不好)以及創建各種文件、網頁甚至遊戲。儘管自發表以來,關於未經訓練的人用它進行分析的相關風險存在很多爭論,但許多測試過 Code Interpreter 的專家都對它的能力印象深刻,以至於一篇論文聲稱這個東西會要求我們改變培訓資料科學家的方式。我還編寫了初始提示來設置Code Interpreter,好做出有用的資料視覺化。初始提示給出了良好圖表設計的一些基本原則,並提醒它可以輸出多種檔。連結參見此處「Data Visualization Assistance」。
至於文本處理,尤其是 PDF的處理,Claude 2 到目前為止表現非常出色。我試過將整本書複製到以前版本的 Claude 裡,效果令人印象深刻,而且新模型更加強大。我還餵給它大量複雜的學術文章並要求它給出結果摘要,它做得很好!甚至更好的是,你還可以提出後續問題,比方說:這個方法的證據是什麼?作者得出了什麼結論?等等…
需要擔心的一些事情:這些系統仍然會產生幻覺,儘管是以更為受限的方式出現。如果你想確保準確性,就得檢查產生的結果。
獲取資訊及學習東西
- 最佳免費選擇:Bing
- 付費選項:通常 Bing 是最好的。如果是兒童的話,可汗學院的Khanmigo提供了由 GPT-4 支援的人工智慧學習輔導,效果不錯。
如果你打算把人工智慧當作搜尋引擎的話,我的建議是也許不要這樣做。產生幻覺的風險很高,而且大多數人工智慧都沒有連接到網際網路(這就是為什麼我建議你用 Bing。Google的人工智慧 Bard 產生的幻覺更多)。不過,根據最近的一項試點研究,有部分證據表明,如果謹慎使用的話,相對於搜尋,人工智慧往往能提供更有用的答案。特別是在搜尋引擎表現不太好的情況下,比方說技術支持、決定去哪裡吃飯或獲取建議,以 Bing 作為起點往往要比用Google好。這是一個正在迅速發展的領域,但你現在應該小心使用。畢竟你不想惹上麻煩吧。
但更令人興奮的是利用人工智慧來輔助教育的可能性,包括幫助我們自己學習。我已經寫過關於如何將人工智慧用於教學並讓教師的生活變得更輕鬆、課程變得更有效的文章,但人工智慧也可以用於自主學習。你可以讓人工智慧解釋概念,一般可以獲得非常好的結果。鑒於我們知道人工智慧可能會產生幻覺,所以明智的做法是(小心!)對照其他來源,仔細檢查任何的關鍵資料。
還有嗎?
正如過去幾個月的發展所表明的那樣,由於技術的快速發展,現在介紹的這些將來可能會變成你用過的最糟糕的人工智慧工具。我毫不懷疑自己很快就需要製作一本新的指南。但關於人工智慧,請記住這兩個關鍵點仍然是正確的:
- 人工智慧是一種工具。但未必總是合適的工具。鑒於人工智慧存在弱點,請仔細考慮它是否適合你計畫應用它的目的。
- 有很多道德問題需要注意。人工智慧可能會被用來侵犯版權、作弊、竊取他人的作品或進行操縱。特定人工智慧模型的開發方式以及誰從對它的使用中受益往往是個很複雜的問題,現階段還不是特別清楚。最終,你有責任以合乎道德的方式去使用這些工具。
我們正處於一場快速推進的革命的早期階段。你還有其他用途想分享嗎?
加入電腦王Facebook粉絲團