原本預計於2023年7月中發表的SDXL 1.0模型,幾經延宕後終於趕在7月結束之前正式推出,能夠帶來更細膩的AI生成圖像。
SDXL報到!
Stability AI開發團隊表示這次推出的SDXL 1.0是Stable Diffusion AI算圖所使用的文字到圖像生成模型(Text-to-Image Generation Model)的一大革新,並自豪地表示是世界上最好的開源圖像生成模型。根據開發團隊在Discord討論區進行的民意調查,SDXL 1.0搭配細化器(Refiner)所產生的能夠獲得26.2%投票者的青睞,不但高於先前SDXL 0.9測試版或是沒有使用細化器的情況,也遠高於現今較為普級的SD 1.5所獲得的4.63%支持度。
根據官方的說明,SDXL由35億組參數的基礎模型和66億組參數的細化器所構成,針對寫實風格的圖像進行最佳化,但也能夠勝任各種風格的高品質圖像,同時也改善先前手部與複雜構圖(例如,背景中的女人在前景中追逐狗)的缺陷,並針對鮮豔而準確的色彩進行了精心調校,能夠帶來更出色的對比、照明和陰影表現,並可以原生輸出解析度達1024 x 1024的圖像。
此外SDXL也強化對提示詞的理解能力,比方它可以分辨「The Red Square」(俄羅斯的紅場)與「a red square」(紅色方塊)的差異,同時使用者不再需要編寫「masterpiece」這類提示詞,就能生成高品質的圖像。
開發團隊也表示在SDXL 1.0的基礎上訓練Checkpoint與LoRA等模型都將比現在更容易,同時也在開發下一代ControlNet以提供更多元的控制選項,這些功能目前處於測試預覽階段,並將持續更新改善。
SDXL 1.0動手玩
開發團隊說明SDXL 1.0的運作流程可以分為2大步驟,系統會在第1步透過基礎模型生成帶有噪訊的潛在資訊(latents),並在第2步使用細化器降噪及進一步精製圖像。而這種2步驟架構有助於在不影響效能的前提下兼顧圖像生成的穩定性,並且推測應該可以在僅有8GB顯示記憶體的顯示卡完成工作。
目前Stable Diffusion WebUI 1.5以上版本已經能夠支援SDXL 1.0,讀者可以更新Stable Diffusion WebUI主程式並自行安裝SDXL 1.0模型。
如果讀者只是想要簡單嘗鮮,也可以到Clipdrop網站進行體驗,只需在網頁輸入提示詞就能生成圖像。
SDXL 1.0線上版體驗網頁:https://clipdrop.co/stable-diffusion
筆者預計之後也會持續更新Stable Diffusion AI算圖教學系列文章,並加入SDXL 1.0的教學,請有興趣的讀者保持關注。
加入電腦王Facebook粉絲團