榮格工業資源APP
了解工業圈,從榮格工業資源APP開始。
在生物醫藥的微觀叢林中,外源性納米材料一旦進入人體循環,便會立即陷入蛋白質的「重重包圍」。這種現象,往往決定了納米藥物的最終命運:是被免疫系統當成異物清除,還是能精準敲開腫瘤細胞的大門?
長期以來,研究人員一直試圖預測蛋白質與納米顆粒之間的這種「相親」過程。
然而,面對由 20 種氨基酸排列組合而成的海量蛋白質序列,傳統的實驗觀察和計算模擬顯得捉襟見肘。
是否能找到一套通用的「化學密碼」,在計算機上預判兩者的結合傾向?
近日,《國際醫藥商情》獲悉,芬蘭于韋斯屈萊大學(University of Jyväskylä)納米科學中心的研究團隊在 Aggregate 期刊發表了一項突破性進展。

他們利用機器學習構建了一套計算模型,成功破譯了配體保護金納米簇(Gold Nanoclusters,AuNCs)與蛋白質相互作用的化學規則,為生物成像和靶向給藥提供了新參考思路。
Part 1
算力瓶頸
在納米材料的世界里,金納米簇因其天然的熒光特性、優異的生物相容性以及可通過腎臟排泄的安全性,成為了生物成像和生物傳感領域的「明星」。
為了使其在體內穩定存在,科學家通常會在金核表面包裹一層有機配體,例如對巰基苯甲酸(p-MBA)。
然而,當這些被保護的金納米簇與蛋白質相遇時,界面上的化學反應變得極其復雜。
蛋白質由 20 種氨基酸組成,這些氨基酸通過肽鍵連接形成特定序列。當蛋白質接觸金納米簇表面時,其構象會在水環境驅動下發生改變,氨基酸殘基與納米簇配體層之間產生復雜的吸引與排斥作用。
過去,行業內普遍采用分子動力學(MD)模擬來觀察這種動態過程。但是,計算成本是一個繞不開的「金錢黑洞」。
對于含有兩個氨基酸的二肽,排列組合有 400 種;三個氨基酸的三肽有 8000 種;一旦增加到四個或更多,組合數量便呈指數級爆炸。即便調用最頂級的超級計算機,也無法窮舉所有可能的交互場景。
「盡管科學界為理解生物分子與納米顆粒界面的結構關系付出了大量努力,但建立這些相互作用模型的研究仍然匱乏?!寡芯客ㄓ嵶髡?、于韋斯屈萊大學教授 Hannu Häkkinen 指出,「開發這樣的模型可使高通量計算篩選成為可能,無需執行大批量模擬即可識別出具有應用價值的體系。」

Part 2
尋找「通用模版」
于韋斯屈萊大學的研究團隊并未走傳統的「一事一議」路線,而是試圖建立一個具有通用性(Generalisable)的模型。他們將目光鎖定在了 Au??(p-MBA)?? 這一經典模型上,其金核結構已被充分表征,p-MBA(對巰基苯甲酸)配體提供水溶性,適用于生物醫學場景。
研究人員首先利用非監督機器學習中的聚類分析(Clustering Analysis),對氨基酸和短肽進行了化學特征提取。
核心思路是,不直接依賴納米簇結構或溶劑化效應,而是定義與相互作用相關的化學性質。研究團隊選取「酸性基團數」和「堿性基團數」作為目標性質,利用分子指紋描述肽段化學結構,通過成對相關性分析篩選與目標性質高度相關的特征變量。

圖:分級聚類樹狀圖(Dendrogram),直觀呈現不同氨基酸在酸堿屬性上的歸類邏輯,特別是精氨酸(R)與天冬氨酸(D)、谷氨酸(E)的顯著差異
聚類分析在四個子集上進行:雙肽的酸性/堿性相關性,以及三肽的酸性/堿性相關性。單氨基酸的分析用于理解各氨基酸的獨立貢獻。
聚類分析揭示了清晰的化學規律。
對于酸性基團,天冬氨酸(D)和谷氨酸(E)的貢獻最為顯著。這兩種氨基酸側鏈含有羧基,與目標性質的相關性最強。天冬酰胺(N)和谷氨酰胺(Q)雖然結構相似,但側鏈為酰胺基而非羧基,相關性明顯較低。
對于堿性基團,精氨酸(R)的貢獻占據主導地位,其胍基對主成分 PC1 的貢獻達到 84%。組氨酸(H)、賴氨酸(K)和脯氨酸(P)次之,甘氨酸(G)和色氨酸(W)也顯示出一定相關性。
這一結果與 Au??(p-MBA)?? 的化學結構高度吻合:p-MBA 配體通過硫原子與金核結合,羧基朝外構成納米簇表面。在 pH 7 條件下,羧基去質子化使表面呈強負電性。堿性基團接受質子的能力使其更易與負電表面形成有利相互作用。
Part 3
精氨酸的「膠水」效應
?當研究從單個氨基酸擴展到二肽和三肽時,機器學習模型給出了更加具體的預測。

圖:K-means 聚類的散點圖,通過不同的顏色區域顯示肽段結合能力的強弱分布,并標注出作為驗證對象的代表性肽段
研究發現,含有精氨酸(R)的肽段幾乎總是位于結合能力的頂端。
這背后的化學邏輯在于,金納米簇表面的 p-MBA 配體在 pH 7 的生理環境下帶負電,而精氨酸側鏈的胍基(Guanidine Group)不僅帶正電,還具有極強的質子接納能力,能夠像「鉤子」一樣深扎進配體層的縫隙中,直接與金核界面的硫原子發生作用。
相比之下,那些富含酸性基團的肽段(如 EL、CEC)則表現得極為冷淡。模擬數據顯示,這些肽段在水溶液中往往只是在納米簇周圍「漂浮」,很難建立穩定的物理接觸。
為了驗證這些預測,研究人員動用了位于芬蘭的 LUMI 超級計算機,進行了長達數百納秒的 MD 模擬和高精度的密度泛函理論(DFT)計算。實驗觀測到的肽段結合順序(RPQ > LCP > HWD > CEC)與機器學習模型的預測完全吻合。
Part 4
加速下一代納米藥物開發
此項研究的意義遠不止于破譯了幾條化學規則。對于制藥行業而言,它提供了一種「高通量篩選」的計算方案。
在傳統的藥物研發流程中,設計一種新型的靶向納米造影劑可能需要數月的實驗摸索。而現在,通過這套機器學習框架,研究人員可以在幾秒鐘內預判某種蛋白質受體是否會與特定的金納米簇發生強相互作用。
「我們的目標是構建一個不局限于單一系統的模型。」博士后研究員 Brenda Ferrari 表示,「雖然目前還存在局限性,但我們已經擁有了一個可以擴展到廣泛蛋白質-金納米簇交互研究的基礎工具?!?/p>
研究相關代碼已開源,包括肽段生成工具 GenPep、PDB 文件生成插件 MoltoPDB 和完整分析流程 UML-for-peptides。
在 AI 浪潮席卷全球制藥業的背景下,納米材料學與計算科學的深度融合已是大勢所趨。于韋斯屈萊大學的這項工作,實際上是為納米醫藥的底層設計邏輯打上了一個堅實的補丁。
未來,隨著模型引入更多關于極化率、電子效應以及環境溶劑化效應的參數,有望看更多具備預測物質相互作用能力的模型,可在無需大量物理化學模擬的情況下實現高通量篩選,有望加速生物成像、生物傳感和靶向藥物遞送領域的發現進程。
參考資料:
Aggregate (2025): e70213, DOI: 10.1002/agt2.70213
來源:國際醫藥商情
作者:John Xie

