科研進展

深圳先進院在人工智能算法指導實驗機器人進行蛋白質(zhì)工程改造

發(fā)布時間:2022-12-27 來源:深圳先進技術(shù)研究院
  北京時間12月24日,中國科學院深圳先進技術(shù)研究院司同課題組和喬宇課題組合作,在生物信息期刊Briefings in Bioinformatics (IF: 13.994) 在線發(fā)表研究論文 “Protein engineering via Bayesian optimization-guided evolutionary algorithm and robotic experiments” 。

  本研究依托深圳合成生物研究重大科技基礎(chǔ)設(shè)施,開發(fā)了一種自動化蛋白質(zhì)工程方法BO-EVO, 通過多輪機器學習與機器實驗迭代,大幅提升了蛋白質(zhì)多位點組合突變設(shè)計空間的探索效率,能夠以<1%濕實驗量尋找獲得全局最優(yōu)實驗結(jié)果。除利用文獻數(shù)據(jù)、理論模型數(shù)據(jù)進行驗證外,BO-EVO方法被應用于實際蛋白質(zhì)工程任務(wù),4周內(nèi)將鼠李糖脂合成酶RhlA的酶底物特異性提升4.8倍。

文章上線截圖 

文章鏈接:https://doi.org/10.1093/bib/bbac570

  蛋白質(zhì)適應度地形(fitness landscape)隱喻蛋白質(zhì)氨基酸序列與其目標性質(zhì)(“適應度”)對應關(guān)系形成的高維表面。蛋白質(zhì)工程改造可視為在這個高維表面上尋找高點對應的序列。然而有效探索該地形將面臨幾個挑戰(zhàn)1. 探索空間隨序列長度指數(shù)增長;2. 有功能的蛋白極其稀少且高性能蛋白數(shù)量隨其適應度呈指數(shù)衰減;3. 由于序列位點間突變存在上位效應,地形極度崎嶇;4. 實驗表征費時、費力、費錢。定向進化采用多輪的隨機突變與高通量篩選對適應度地形開展探索,通常每輪固定一個最佳突變。然而,由于適應度地形通常較為崎嶇,貪婪策略容易陷入局部最優(yōu)。 

  在該研究中,機器學習在建模蛋白質(zhì)適應度地形及指導蛋白質(zhì)工程方面都取得了初步成功。然而,一方面受限于序列特征不充分及適應度標簽數(shù)據(jù)稀疏,機器學習模型性能有限;另一方面受限于人力實驗,現(xiàn)有機器學習指導的蛋白工程改造都追求盡可能小的實驗通量和盡可能少的迭代輪次(甚至無迭代)。生物鑄造廠(Biofoundry)通過物理與信息的自動化可以加速生物工程的“設(shè)計-構(gòu)建-測試-學習”閉環(huán)過程。在蛋白質(zhì)工程任務(wù)上,自動化、高通量實驗平臺使得短時間內(nèi)大批量建庫和篩選成為可能,從而能夠獲取高通量、高質(zhì)量的序列-功能關(guān)系數(shù)據(jù),用于機器學習模型性能及序列設(shè)計質(zhì)量的閉環(huán)迭代提升。 

  為了實現(xiàn)機器學習算法與機器人實驗之間的高效反饋,數(shù)據(jù)獲取、模型構(gòu)建及序列推薦三者缺一不可,形成閉環(huán)。就算法而言,貝葉斯優(yōu)化正適用于這種復雜適應度地形的尋優(yōu),其可利用預測模型的不確定性構(gòu)建采樣函數(shù)以平衡“探索與利用”。然而,經(jīng)典的貝葉斯優(yōu)化方法并不適用于高維問題及批量采樣。本研究針對蛋白質(zhì)多位點組合突變設(shè)計空間的高維搜索難題,開發(fā)了貝葉斯優(yōu)化指導的進化算法(BO-EVO,圖1)。作者在研究中提出了搜索空間演化策略,克服經(jīng)典貝葉斯優(yōu)化的可擴展性問題,采用迭代式批量化采樣策略,實現(xiàn)與高通量、自動化實驗平臺的高效適配。 

圖1. BO-EVO原理圖。a. BO-EVO算法流程展示搜索空間演化; b. FAST-HIT軟件框架實現(xiàn)數(shù)據(jù)獲取、模型構(gòu)建與序列推薦的閉環(huán)迭代。

  文章以四位點組合突變的GB1經(jīng)驗地形數(shù)據(jù)開發(fā)算法,確定算法超參。在GB1地形上,BO-EVO性能超越隨機算法、純進化算法(AdaLead)甚至MCMC算法(圖2);其性能雖不及全空間枚舉的貝葉斯優(yōu)化方法,但計算效率大大提高,可擴展性極好。

圖2. 適應度地形探索算法比較。a. 找到全局最優(yōu)的成功率;b. 算法所推薦的序列的適應度均值及最大值。

  為了考察對不同適應度地形的適用性,作者將開發(fā)好的BO-EVO算法(超參不變)應用在另外一個四位點組合突變的經(jīng)驗地形PhoQ上,獲得了更高的成功率(圖3)。此外,作者進一步挑戰(zhàn)BO-EVO,將其用在具有不同粗糙度的NK模擬地形(統(tǒng)計模型,粗糙度可控)上,發(fā)現(xiàn)對于中等及以下粗糙度的NK地形,BO-EVO表現(xiàn)優(yōu)秀,而對極其崎嶇的地形,BO-EVO的成功率明顯下降(圖3)。當然,對于極其崎嶇的地形,其適應度的可預測性本身極大降低。

圖3. BO-EVO在不同地形上的泛化能力。a. NK地形的粗糙度;b. BO-EVO迭代5輪后找到全局最優(yōu)的成功率。綠色圓圈代表NK地形,藍色三角形代表PhoQ地形,紫色五角星代表GB1地形。

  最后,作者將BO-EVO算法成功應用于真實的蛋白質(zhì)工程任務(wù)上。面向4位點組合突變的優(yōu)化任務(wù),作者以鼠李糖脂合成酶RhlA為研究對象,基于BO-EVO指導機器人平臺開展自動化實驗,進行共4輪、每輪384個突變體的分子克隆、誘導表達和質(zhì)譜測試。在不使用先驗知識的前提下,BO-EVO通過模型-實驗閉環(huán)迭代,在1個月內(nèi)實現(xiàn)底物選擇性指標近5倍的提升,達到文獻已報道最高水平。

 

4. BO-EVO指導RhlA酶的4位點組合優(yōu)化。a. 鼠李糖脂單體Rha-C10-C10分子結(jié)構(gòu);b. 鼠李糖脂單體的MALDI質(zhì)譜檢測結(jié)果,包括野生型與典型變體;c. Rha-(C8-C10)的歸一化產(chǎn)量,野生型為1。

  綜上,文章依托深圳合成生物大設(shè)施,開發(fā)了蛋白質(zhì)適應度地形的高效探索算法,率先實現(xiàn)了基于機器學習模型與機器人實驗反饋迭代的自動化蛋白質(zhì)工程改造。司同研究員、喬宇研究員和胡如云助理研究員為本文的共同通訊作者,胡如云助理研究員和博士生付立豪為本文共同第一作者。本研究得到國家重點研發(fā)計劃、國家自然基金及深圳合成生物學創(chuàng)新研究院等項目支持。 

    

  PI與課題組簡介: 

  司同,中科院深圳先進院合成生物學研究所研究員,博士生導師。國家重點研發(fā)計劃合成生物學項目首席科學家,國家高層次人才(青年),深圳合成生物研究重大科技基礎(chǔ)設(shè)施總工藝師。 

  課題組方向為自動化合成生物技術(shù),包括機器學習指導蛋白工程、高通量質(zhì)譜篩選等,用于開發(fā)微生物細胞工廠研究和生產(chǎn)燃料、化工品、藥物等重要分子,前期成果在Nat Commun, J Am Chem Soc, Angew Chem Int Ed, Chem Sci, Metab Eng等國際著名學術(shù)期刊發(fā)表論文50余篇,“谷歌學術(shù)”引用超過2400次。 

  實驗室主頁:  

  http://isynbio.siat.ac.cn/sitonglab/ 


附件下載: