AMD 在 E3 正式開展前夕,於美國加州洛杉磯舉辦 Next Gaming Horizon Tech Day,會中提供第三代 Ryzen 桌上型處理器的詳細資訊,也正式宣布眾所期待的主流平台十六核心 32 執行緒 Ryzen 9 3950X 即將於 9 月推出。不過在此之前,先讓我們來了解 Zen 2 微架構與 Zen/Zen+ 的相異之處。
AMD 以 4 大面向整理第三代 Ryzen 桌上型處理器的進步之處,包含晶圓技術、設計、安全,以及 Infinity Fabric。Zen 2 微架構和 2 年前的 Zen 微架構相比,IPC 效能增加 15%,AMD 強調高於業界平均水準所能提供的漲幅。
TSMC 7nm
第三代 Ryzen 桌上型處理器封裝 CCD 晶粒,交由台灣 TSMC 台積電 7nm 製程製造已是大家所知的事情。在此節點技術,單位面積電晶體數量可提供相較於前一代 2 倍密度;若是將 2 代製程技術耗電變量固定,7nm 可提供 1.25 倍效能,若將效能固定,7nm 耗電量僅有一半。
微架構設計補完計畫
在 AMD 推出 Raven Ridge 之時,我們的文章已大致解說 Zen 微架構的內部構造,Zen+ 則是在記憶體階層的效能做出些許改善,降低 Zen 快取、記憶體存取延遲較高的狀況,因此也讓 Zen+ 在微架構並未修改的情況下,IPC 效能硬是比 Zen 微架構多出一些。Zen 2 微架構目前看來是 Zen/Zen+ 的補完版,加強容易被對手拿來說嘴的部分。
首先是前端部分,分支預測器改採 TAGE 形式,可以提供相較以往更為正確的預測結果,L1 指令快取容量雖然從 64KB 縮減為 32KB,但是關聯性從 4-way 提升至 8-way,將省下的電晶體空間提供給 TAGE 分支預測器和 OP 快取。x86 架構最大缺陷為指令解碼部分,為了減少在此處的效能衝擊,目前 AMD 和 Intel 雙方均有負責儲存近期解碼後結果的快取單元,遇到近期已經解碼過的指令,直接由此快取輸出微運算。
AMD Zen 2 架構負責存放近期指令解碼的 OP 快取,從 2048 個條目升級成 4096 個條目,如此看來 AMD Zen2 前端將更倚重近期執行指令的重複性,直接從 OP 快取輸出微運算比起直接從 x86 指令解碼更有效率。Zen2 x86 指令解碼與 OP 快取每個時脈週期輸出量與 Zen/Zen+ 相同,分別為解碼 4 個指令和 8 個微運算進入微運算佇列,微運算佇列每個時脈週期最多可配發 6 個微運算進入執行階段。
Zen 2 微架構執行階段依舊採用整數與浮點數分開的方式,整數執行單元每時脈週期可接受最多 6 個微運算,內部負責計算記憶體存取位址的 AGU(Address Generation Unit),從 2 個增加至 3 個,每個時脈單位可完成 2 個載入與 1 個儲存動作,rename register 重命名暫存器數量則從 168 個增加至 180 個。
浮點數執行單元每時脈週期則可接受最多 4 個微運算,其中過去針對 128bit 運算最佳化的處理單元,遇到 256bit 浮點指令時需拆成 2 個 128bit 處理的狀況,Zen 2 微架構進化成 256bit 不再分拆,並如同 Zen/Zen2 使用 4 條管線,分別為 2 個 ADD 加法和 2 個 MUL 乘法,相關儲存、載入路徑也為 256bit 進行最佳化,最大提供前一世代設計的 2 倍資料傳輸量,MUL 乘法延遲也從 4 個時脈週期降到 3 個時脈週期。
整體而言,Zen 2 微架構 IPC 效能相較 Zen 微架構平均成長 15%,已可比擬 Intel Coffee Lake 微架構;Cinebench 單執行緒效能略為超越,多執行緒效能更不用多說,自從 Zen 微架構發表以來,一直都是 AMD 的強項。
第三代 Ryzen 桌上型處理器內部依舊採取實體四核心形成 1 個 CCX 的方式,1 個 CCD 晶粒則包含 2 個 CCX,其中 L3 快取容量倍增,由單核心 2MB 調整成 4MB,並依舊是 victim cache 架構。詳細 L3 快取容量增加前後的效能比較,將於文章後部詳述。
多項安全漏洞免疫
由於 AMD 和 Intel x86 處理器微架構實作處理指令方式的不同,近期在 Intel 處理器發現的安全性漏洞,多數並不存在於 AMD Zen 系列微架構身上,不過依然有著 Specture 和 speculative store by pass 等 2 項硬體漏洞需要透過韌體或是作業系統/虛擬機管理員進行修復。
微架構進化至 Zen 2 之後,上述 Specture 和 speculative store by pass 將直接透過影體修復方式免疫,如此一來就不必面對韌體或是作業系統層級修復方式帶來的效能衝擊。
Infinity Fabric 擴充性
AMD 所研發的 Infinity Fabric 互連架構,在第三代 Ryzen 桌上型處理器當中依舊扮演相當重要的角色,以便將 14nm 製程 I/O 晶粒與 1 個或是 2 個 CCD 運算晶粒相互連結,內部依舊分成 SCF(Scalable Control Fabric)負責傳輸控制訊號,SDF(Scalable Data Fabric)負責傳輸資料,並且在採用 Zen 2 微架構的產品升級成第二代 Infinity Fabric。
競品效能比較
當初 AMD Zen 微架構推出之時,由於採用 4 個實體核心共組 1 個 CCX,每個晶粒共有 2 個 CCX 的組合方式,顛覆一般消費級產品處理器核心地位對等情形,CCX 和 CCX 之間的頻寬較小、延遲較大,類似於雙處理器插槽的拓樸,若是作業系統未能替此類構造最佳化,很容易因為資源調用欠周詳,最終導致效能不彰。
這次第三代 Ryzen 桌上型處理器系列,又再次導入新的拓樸,單一 CCD 內含 2 個 CCX,但是 CCX 和 CCX 之間需要透過與 I/O 晶粒連結的 Infinity Fabric 溝通。Windows 10 May 2019 與隨之更新的晶片組驅動程式,已可為第三代 Ryzen 桌上型處理器系列拓樸最佳化,1 組相關聯的執行緒將會盡量維持在同一 CCX 當中執行。
另一方面,Windows 10 May 2019 透過 UEFI CPPC2,將第三代 Ryzen 桌上型處理器系列時脈選擇速度從過去延遲約 30ms,大幅降低至 1ms~2ms,在需要運算能量時可以更快速地拉抬時脈,輕量工作負載則可快速降低時脈更為省電。
Windows 10 支援第三代 Ryzen 桌上型處理器系列核心拓樸前後,在 Rocket League「火箭聯盟」 1080p low 效能可以提升 15% 之譜,而 CPPC2 在 PCMark 10 App Launch 程式開啟速度更可加快 6%。
前面談到 L3 快取容量加倍對效能的影響,在第三代 Ryzen 桌上型處理器系列的效能成長幅度比起換裝 DDR4-3600 記憶體更有效。下方圖片闡明 2 者之間的關係式,記憶體從 DDR-2666 換裝 DDR4-3600,多個遊戲效能提升幅度在 5%~10% 之間,但 L3 快取容量翻倍卻可提供 10%~21% 效能漲幅。
第三代 Ryzen 桌上型處理器系列排排站與 Intel 競品相互比較,是一定要上演的戲碼,Ryzen 9 3900X 對上 Core i9-9900K、Ryzen 7 3800X 對上 Core i9-9700K、Ryzen 5 3600X 對上 Core i5-9600K 均可提供相同的遊戲表現,但多執行緒運算效能卻更佳。
有趣的是,Ryzen 7 3700X 對決 Core i9-9700K 採用耗電量與運作廢熱相比,後者在 Cinebench R20 多執行緒較快產出運算結果,平均平台耗電量為 138.65W,Core i9-9700K 卻是 158.5W,產出的廢熱也比 Ryzen 7 3700X 更多。
AMD 同時不忘連帶強調 X570 晶片組與軟體的重要性,第三代 Ryzen 桌上型處理器系列和 X570 晶片組將 PCIe 4.0 帶往消費市場主流平台,提供 2 倍於 PCIe 3.0 的頻寬,處理器封裝本身也支援 4 個 USB 3.2 Gen2 10Gbps 連接埠和 1 個用來連結 NVMe SSD 的 PCIe 4.0 x4 通道,不必透過晶片組。
主機板 UEFI 內部另外有個統一由 AMD 所設計的超頻頁面,按照廠商說法,旨在提供跨主機板廠牌的一致性體驗。在 Windows 作業系統執行的 Ryzen Master 超頻軟體,將擁有記憶體全時序調整、自動超頻功能,亦可匯入或是匯出設定檔,並可顯示處理器電源管理狀態。
實際市場銷售盒裝部分,第三代 Ryzen 桌上型處理器 Ryzen 7 和 Ryzen 5 將於盒裝直接附屬具有 RGB LED 燈光效果 Wraith Prism 散熱器,此散熱器 TDP 設計為 125W,並與 Razer 合作,透過 Razer Chroma 同步控制 Wraith Prism 散熱器 RGB LED。
加入電腦王Facebook粉絲團