Stable Diffusion是款深度學習文字到圖像生成模型,主要的功能可以將文字敘述轉換為圖像,筆者將這系列文章介紹它的使用方式。
文轉圖的AI助手
相信在「電繪教母」風波之後,大家對AI算圖多少都有些瞭解,這類技術能夠將使用者輸入的文字轉換為圖像,在短短幾分鐘內就能產生許多有趣的圖片,不但可以做為美術工作者的有利助手,對一般人來說也具有相當娛樂性。
在各種圖像生成模型中,由StabilityAI、CompVis、Runway等公司合作開發的Stable Diffusion就是相當熱門的模型之一,它以擴散模型(Diffusion Model)為技術基礎,並且採用開源方式發布,使用者可以在遵守授權條款的前提下進行非商業與商業使用。
不過筆者在這邊先提醒,雖然根本Stable Diffusion程式的授權調款能夠進行商業使用,但是考量到許多AI模型不一定符合商業使用的範疇,另外目前AI算圖所產生的作品也尚無較為明確的法律規範,因此建議現階段僅先進行技術研究與體驗,不要將產出的圖片進行商業使用,以表示對原始圖像作者的尊重並避免法律糾紛。
話說回來,Stable Diffusion的另一個特色是能夠部署在自己的電腦上,只需要準備一套相容的電腦,就可以不使用方式與次數限制的自由使用,雖然前置作業與成本等門檻比線上服務高,但是可以胡搞瞎搞的「可玩度」更具吸引力。
執行Stable Diffusion的系統準備
由於Stable Diffusion採用開源的型式發布,所以有許多開發者都推出了不同的衍生分枝與前端工具,筆者將在這系列文章中以由AUTOMATIC1111 所開發的Stable Diffusion WebUI為範例,並搭配Miniconda建立Python虛擬環境。
不過需要注意的是,雖然根據AUTOMATIC1111於Git提供的說明,Stable Diffusion WebUI除了能搭配NVIDIA顯示卡使用外,也可以透過DirectML搭配AMD顯示卡使用,或是於Apple Silicon上執行,但是考量現階段執行的相容性興與效能等因而,教學中將暫時只以NVIDIA顯示卡做為範例,並視情況於未來更新教學。
在執行Stable Diffusion的硬體需求部分,儲存裝置方面最低建議可用容量為20GB以上的傳統硬碟,但強烈建議準備大容量的固態硬碟以存放更多模型並提高讀取速度,以提升算圖的精準度、多樣性與速度。顯示卡方面則為搭載6GB顯示記憶體以上的型號,根據社群回饋的心得NVIDIA GeForce RTX 2060就能執行,但仍建議使用具有12GB顯示記憶體以上的型號(如GeForce RTX 3060),若是搭配GeForce RTX 40系列顯示卡自然能夠提升算圖速度。其餘如處理器與記憶體等規格則無特殊需求。
軟體部分則相對簡單許多,只要在Windows作業系統安裝Git、Python、Miniconda等軟體,並安裝顯示卡所對應的最佳化函數庫,就可以下載Stable Diffusion WebUI與各種模型,並且開始算圖了。
筆者將於教學的2-1章節中實際示範安裝與GeForce RTX 40系列顯示卡最佳化的操作過程,請讀者參考系列文章目錄。
(下頁還有系列文章目錄)
Stable Diffusion AI算圖使用手冊系列文章目錄
(章節與內容可能會在後續陸續補充或調整)
§第一章:前言
Stable Diffusion AI算圖使用手冊(1-1):這是什麼黑魔術?
§第二章:軟體安裝
Stable Diffusion AI算圖使用手冊(2-1):安裝Stable Diffusion WebUI與NVIDIA RTX 40顯示卡最佳化
Stable Diffusion AI算圖使用手冊(2-2):安裝更多AI模型
§第三章:Stable Diffusion WebUI相關教學
Stable Diffusion AI算圖使用手冊(3-1):開始算圖吧!
Stable Diffusion AI算圖使用手冊(3-2):詠唱咒語的技巧
§第四章:LoRA相關教學
Stable Diffusion AI算圖使用手冊(4-1):透過LoRA小模型收束角色特性
§第五章:ControlNet相關教學
Stable Diffusion AI算圖使用手冊(5-1):透過ControlNet控制角色姿勢
§第六章:保留章節
保留章節(暫定)
§第七章:補充內容
Stable Diffusion AI算圖使用手冊(7-1):觀點分享,AI會讓人類滅亡嗎?(暫定)
加入電腦王Facebook粉絲團