人工智慧正在改變現代電子產品——加速可彎曲電視螢幕、超輕型革命性太陽能電池等的設計。
具有定制特性的分子和材料的設計具有挑戰性,因為候選分子必須滿足通常難以測量或計算的多種競爭要求。雖然透過生成式深度學習產生的分子結構將滿足這些模式,但它們通常只是偶然而非設計地擁有特定的目標屬性,這使得透過這種途徑進行分子發現效率低下。
近日,來自英國華威大學(University of Warwick)和德國萊比錫大學(Universität Leipzig)的研究人員使用一種人工智慧演算法來創造新分子。該演算法能夠透過在電腦上逐個原子地構建,來快速設計出數百萬個以前未發現的分子。
研究人員透過將預測分子3D構象的生成式深度學習模型與將這些作為輸入並預測其電子結構的監督深度學習模型相結合來預測具有(帕雷托)最優特性的分子。(多個)分子特性的最佳化是透過篩選新產生的分子以獲得所需的電子特性並重新使用命中分子來重新訓練具有偏差的生成模型來實現的。
該方法被證明可以找到有機電子應用的最佳分子。所提方法具有普遍適用性,無需在預測過程中進行量子化學計算,適用於材料和催化劑設計中的高通量篩選。
該研究以「High-throughput property-driven generative design of functional organic molecules」為題,於 2023 年 2 月 6 日發表在《Nature Computational Science》上。
設計特定屬性的分子和材料有挑戰性
尋找新的功能分子和材料,通常會因必須同時滿足多個標準而變得複雜。同時多屬性最佳化可以被認為是分子和材料設計中的聖杯。
更好地瞭解分子中的官能團如何改變其物理化學性質,至少在原則上有助於促進設計研究。然而,由多達 10^60 個有機分子組成的化學空間的組合複雜性和許多必須考慮的許多因素,往往使這個問題對於傳統最佳化和基本啟發式推理來說過於複雜。在開發具有特定屬性要求的新分子和材料時,基於簡單結構-屬性關係和試錯最佳化的候選者辨識仍然是最先進的。
有機光電子學是研究發光或探測光的設備的一個研究領域。新型有機電子材料發揮作用的例子包括可持續能源(太陽能電池)、有機發光二極體、電信、智慧型設備中的顯示器和光纖等。
有機薄膜器件,由多個有機層組成,具有不同的定制性質。為薄膜器件提供新的分子材料,它們的電子性質,如基本間隙(ΔE)、電子親和勢(EA)或電離勢(IP),必須在一個狹窄的視窗內,以滿足設備功能的要求。
生成式深度學習發現分子效率低
最近,生成式深度學習(generative deep learning)已成為加速分子設計的一個有前途的解決方案。生成式深度學習是一種無監督學習技術,其中深度學習模型從(分子)幾何資料集中提取知識,並應用獲得的規則來創建具有與原始資料集中的屬性相似的新分子。最近的幾項工作表明,此類方法有可能顯著加速分子和材料的發現,然而,不能保證生成的分子系統將在相關體制內表現出特性。
化學空間中的無引導搜尋效率極低,從根本上限制了可以在高通量篩選中探索的結構的多樣性,特別是如果分子生成過程需要計算要求很高的電子特性的量子化學預測。即使假設擁有無限的計算資源,生成分子的表徵仍然具有挑戰性。
功能有機分子的高通量引導搜尋和設計
在這項工作中,研究人員提出了一種方法,該方法可提供具有定制特性的功能性有機分子的高通量引導搜尋和設計。
該方法透過結合兩種機器學習演算法來實現這一點。第一個模型是一個無監督的產生自回歸模型,它可以使用從分子結構分布中學習的化學規則來創建新的、以前未知的分子3D平衡構象。第二個模型是受監督的物理啟發的深度神經網路,給定3D結構,可以預測功能有機分子的(帶電)電子激發,接近實驗精度。後者消除了以前方法中使用的要求苛刻的量子化學計算的需要。
此處介紹的方法提供了一個自動化的工作流程,在該工作流程中,化學空間探索可以偏向於產生滿足預設設計參數的分子。
工作流程
所提出的自動化分子設計方法是兩種深度學習技術的組合,如圖 1a 所示。
首先,該過程在一組分子結構上訓練生成模型,以學習構建滿足相同結構分布並類似於所學化學空間的分子的基本規則。然後,使用最初訓練的生成式深度學習模型來預測大量(在數千到數百萬範圍內)新分子。對分子結構進行有效性檢查,並根據結構過濾系統:例如,丟棄重複或斷開連接的系統。對於結構生成,研究人員使用生成式自回歸深度神經網路 G-SchNet。與大多數生成模型相比,G-SchNet 能夠預測分子的結構組成和3D構象,可以作為電子結構計算和電子結構深度學習模型的輸入。
深度神經網路 SchNet + H 促進了分子特性的篩選,實現了高計算效率。
透過在功能有機分子的 OE62 資料集上訓練 G-SchNet 來示 範所提出的工作流程。OE62 資料由具有高度化學和結構多樣性的分子組成。
在這裡,證明透過反覆運算地將 G-SchNet 偏向所需的屬性範圍。可以設計出位於原始訓練資料集所代表的屬性分布之外的 ΔE、IP 和 EA 值的分子。
用於以前未見過分子的(多)特性驅動設計
所提出的方法構成了一個高效的工作流程,用於以前未見過的分子的(多)特性驅動設計。
該模型的局限性之一是,它需要在每個迴圈中預測和篩選幾十萬個分子,以獲得足夠多的分子數量,進而在篩選後可以使生成模型產生偏差。這一過程是有限制的,特別是當生成結構的化學多樣性很小時,如果分子被篩選為兩種以上的屬性,則可能成為計算瓶頸。這種限制可以透過條件生成模型來解決,例如條件 G-SchNet,它可以透過在訓練期間將感興趣的屬性作為標籤來調節生成模型,以預測具有某些屬性的分子。
生成可行分子的能力並不是 G-SchNet 獨有的,該研究所提方法的新穎之處在于其高輸送量能力。
此外,以要求的精度透過量子化學計算篩選 1,000 個生成的分子,將花費超過 500,000 個計算小時或大約 20,000 天。相比之下,在這項工作中,研究人員在幾天內篩選了數十萬個分子。因此,此處應用的機器學習模型的組合是一個明顯的優勢,可提供真正的高通量分子設計能力。
該方法預測具有超出初始訓練資料集的電子特性的分子的能力將有助於從高通量藥物發現到有機電子分子設計的一系列應用。
未來的工作將探索如何透過使用不同的神經網路架構來進一步提高該方法的性能。
資料來源:
加入電腦王Facebook粉絲團