基因組“預言家”?看浙大“女媧”AI模型!

基因組由DNA組成,它不僅包含蛋白質的編碼序列,還包含大量不編碼蛋白質的調控序列。這兩類序列協同作用,共同決定生物體的復雜表型特征,講述著生物體的古老遺傳語言。
讀懂海量基因背后的調控密碼,是科學家們一直致力于攀登的科學高峰。
浙江大學郭國驥教授團隊在具有完全自主知識產權的超高通量超靈敏單核ATAC測序技術(UUATAC-seq)基礎上,開發多任務深度學習模型女媧CE(NvwaCE),實現了從基因組序列到單細胞水平調控序列圖譜的直接預測。該成果以“Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning”為題,于北京時7月8日,發表在《細胞》上。
專屬的模型訓練“教材”
2003年起,人類基因組計劃集全球頂尖科學家之力,繪制出人類基因圖譜。但時至今日,科學家對其中的遺傳信息破譯了不足10%。如何快速、系統性理解復雜生命系統?近年來涌現的人工智能(AI)模型嶄露鋒芒。
AI模型要學得好,訓練用的“教材”,即數據的質量至關重要。
“我們認為,與結構AI模型相比,基因組AI模型所面臨的瓶頸在于發表數據質量參差不齊,批次效應大。”深耕單細胞組學技術的郭國驥團隊,曾基于自主研發的Microwell-seq高通量單細胞測序平臺,發布了世界首個小鼠細胞圖譜和人類細胞圖譜。經過多年積累,團隊迭代建立起了超高通量、超靈敏單核ATAC測序技術:UUATAC-seq。
因為UUATAC-seq直接測量決定mRNA的基礎——調控DNA,所以該方法可以獲得與轉錄組互補的表觀調控序列信息,同時對于低表達基因(如轉錄因子)的檢測不會存在明顯的擴增偏差,這賦予了UUATAC-seq更高的數據質量和更豐富的信息,并且可以在單日內高效率繪制一個物種的染色質可及性圖譜。
“調控序列就像基因中的‘功能開關’,處于開放、舒展的狀態。”郭國驥介紹說,不同細胞處于開放狀態的染色質區域不一樣,構建染色質可及性圖譜,相當于為基因組繪制“功能地圖”,建立了深度學習遺傳“語言”的數據基礎。
破解基因組調控序列密碼
以UUATAC-seq技術為基礎,研究團隊構建了覆蓋小鼠、雞、守宮、蠑螈和斑馬魚這五種代表性脊椎動物的全身單細胞染色質可及性圖譜,并由此鑒定出數百萬個候選順式調控序列(cCREs),系統性地揭示了貫穿脊椎動物演化的細胞類型特異性調控程序。
“我們發現,脊椎動物調控語法的保守性明顯強于核苷酸序列本身,且該語法將脊椎動物調控原件序列在高維分類為不同的功能模塊。”郭國驥說,這進一步揭示了細胞類型特異性基因表達的序列基礎。
有了這套“教材”,深度學習模型“女媧CE”順勢誕生,成為了團隊拓展研究深度的得力助手。
通過學習UUATAC-seq技術獲得的大量高質量數據,“女媧”讀懂了脊椎動物的調控序列編碼規則,能夠基于一維DNA序列,預測其在任意脊椎動物單細胞中的染色質可及性水平。
值得一提的是,“女媧”的高泛化能力使其能夠從基因組序列出發預測未經訓練物種的染色質可及性圖譜,其對于人類調控元件可及性水平的預測值與實驗測量值顯示出較好的相關性。
是“預言師”,更是“設計師”
“‘女媧’模型在多項指標上,超越現有的基因組AI模型,并能精準預測合成突變對譜系特異性調控序列功能的影響。”郭國驥介紹,“女媧”不僅能夠預測出細胞各個位置發生突變之后帶來的表型變化,也能結合疾病的表型設計出相應的治療位點。
那在實戰演練中“女媧”表現如何?
HBG1-68:A>G是“女媧”在功能實驗中預測出的一個鐮刀型貧血癥治療性基因位點。“經過對該點位的基因治療,胎兒血紅蛋白表達量的顯著提升,這將能彌補鐮刀型貧血癥β血紅蛋白的功能缺失。”郭國驥說,這是世界上首例驗證的由人工智能設計的人類疾病治療性位點,為未來全面解讀基因組語言和建立數字生命模型奠定了堅實的基礎。
與國外同行相比,“女媧”基于迄今為止最高質量的單細胞圖譜數據,并對幾乎所有的細胞類型實現了AUROC>0.90的預測準確率,這是其他基因組AI模型暫時無法企及的。
“這項研究不僅提供了寶貴的跨物種單細胞數據資源,更創造了強大的基因組AI預測工具。”郭國驥表示,“女媧”模型在解讀調控規則、理解遺傳病發病機制以及設計合成調控序列等方面的能力,將為生命科學,醫學和農學研究提供強大的支撐。
(文 查蒙/圖 哲映)
本文鏈接:http://knowith.com/news-3-3276.html基因組“預言家”?看浙大“女媧”AI模型!
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
抖音唯美句子簡短
三月再見四月你好的唯美句子
干凈唯美句子
個人委托書電子版
快板臺詞
楚雨蕁臺詞
演講開場白臺詞
一年級班主任工作計劃
大班第一學期工作計劃
項目部年工作計劃
鑫鴻圖:蘋果id貸有哪些,正規蘋果id貸款口子利息
一夜之間在美霸榜,小紅書迎來“潑天流量”背后,其海外電商市場仍空白
最新必讀:誰有京東店鋪可以套白條(真實一手商家安全可靠)-知者
如登春臺:鄭州惠濟區代還信用卡取現,最好還款服務,大家都找他操作
大吉大利:東莞代還信用卡取現,找我就可以了,高效便捷服務
勵精圖治:DY月付怎么套出來,推薦五個操作流程
馬到成功:上海寶山區上門代還信用卡,自己套出來現金(教你5個操作方法)
聚精會神:羊小咩購物額度怎么套,新手必看安全教程
甲流、乙流、禽流感……都是流感,有什么不同?
墨染:羊小咩享花卡額度怎么套出來現金,完整流程記得收藏