得克薩斯州奧斯汀與加利福尼亞州圣何塞2026年3月20日 /美通社/ -- 前沿生物設(shè)計AI實驗室Basecamp Research今日宣布啟動Trillion Gene Atlas(萬億基因圖譜),這是一項里程碑式科研計劃,旨在實現(xiàn)萬億級基因規(guī)模的生物數(shù)據(jù)生成與建模。 Trillion Gene Atlas與Anthropic、Ultima Genomics和PacBio合作啟動,并依托NVIDIA AI基礎(chǔ)設(shè)施,目標是通過在全球數(shù)千個點位采集超過1億個物種的基因組數(shù)據(jù),將已知進化遺傳多樣性擴大100倍。
這得益于Basecamp Research不斷擴大的全球生物多樣性合作網(wǎng)絡(luò)。 項目的最終目標是為AI系統(tǒng)提供海量、多樣化的訓練數(shù)據(jù),使其能夠通過學習進化規(guī)律,按需設(shè)計新型藥物。
Basecamp Research聯(lián)合創(chuàng)始人兼首席執(zhí)行官Glen Gowers在奧斯汀舉辦的西南偏南(SXSW)大會上表示:“當前的生物AI模型僅基于地球上極小一部分生物樣本數(shù)據(jù)進行訓練。 Trillion Gene Atlas將已知基因領(lǐng)域的規(guī)模,拓展至遠超公共數(shù)據(jù)庫數(shù)個量級的水平。 這一量級的訓練模型將為可編程治療藥物的設(shè)計建立新的范式。”
這個規(guī)模堪比人類基因組計劃(Human Genome Project)的項目,在西南偏南大會健康專場和圣何塞NVIDIA GTC大會期間正式發(fā)布。
隨著模型體量和算力大幅提升,多樣化數(shù)據(jù)已成為AI藥物開發(fā)和落地應(yīng)用取得突破的關(guān)鍵推動因素。 目前所有基于序列的基礎(chǔ)模型,都依賴于同一批公共數(shù)據(jù)庫的不同版本,其中80%的訓練數(shù)據(jù)來自一個序列總量不到2.5億條的公共數(shù)據(jù)庫。
Basecamp Research于今年1月發(fā)布的EDEN基礎(chǔ)模型,完全基于BaseData?專有基因組數(shù)據(jù)庫進行訓練,成功突破行業(yè)進化“數(shù)據(jù)壁壘”。該數(shù)據(jù)庫目前規(guī)模已超過所有公共資源數(shù)據(jù)庫總和的10倍以上。 EDEN模型通過學習100萬個新發(fā)現(xiàn)物種、數(shù)量達史無前例的100億個全新科學基因,為生物領(lǐng)域AI揭示了至關(guān)重要的新型擴展定律。
數(shù)據(jù)集多樣性的大幅提升,使EDEN超越了簡單的預測范疇,成為全球首個能夠直接根據(jù)疾病需求設(shè)計多樣化治療藥物的模型。 在濕實驗室驗證中,EDEN無需任何人體或臨床數(shù)據(jù),即可在人類原代T細胞中實現(xiàn)零樣本活性檢測。 該模型已在多種前沿治療模態(tài)中產(chǎn)生有效成果,尤其開創(chuàng)性推出AI可編程基因插入(aiPGI)技術(shù)來植入健康基因,并設(shè)計出靶向抗菌肽,針對重點病原體的有效命中率達97%。
Trillion Gene Atlas正是基于這一技術(shù)路徑,大幅拓展了適用于AI訓練的已知“生物互聯(lián)網(wǎng)”中基因組數(shù)據(jù)廣度與場景深度。
Basecamp Research首席技術(shù)官Phil Lorenz補充道:“僅靠更大的模型是不夠的。 EDEN模型已證明,更高質(zhì)量、全場景化的數(shù)據(jù),能讓生物學領(lǐng)域的AI性能呈現(xiàn)更陡峭的提升曲線。 Trillion Gene Atlas將這一效應(yīng)再放大100倍。”
過去六年間,Basecamp Research已在31個國家/地區(qū)建立了科研合作網(wǎng)絡(luò),構(gòu)建了一個專為AI訓練設(shè)計、可擴展的進化基因組學研究體系。 公司創(chuàng)新融合新的監(jiān)管與經(jīng)濟合作框架,采用完全離網(wǎng)的DNA測序技術(shù),從傳統(tǒng)實驗室無法觸及的生態(tài)系統(tǒng)中采集高質(zhì)量的基因組數(shù)據(jù)。
此類合作以知識交流、本土科研能力建設(shè)為基礎(chǔ),同時遵循新興數(shù)字序列信息監(jiān)管法規(guī),簽訂公平的獲取與利益共享協(xié)議。 該框架能夠?qū)崿F(xiàn)負責任、大規(guī)模、高質(zhì)量的基因組數(shù)據(jù)采集,也為合作地區(qū)投入科研基礎(chǔ)設(shè)施建設(shè)與人才培養(yǎng)。
作為圖譜發(fā)布的一部分,Basecamp宣布在智利、阿根廷達成新的合作伙伴關(guān)系,并拓展南極洲的協(xié)作,進一步擴大其全球生物多樣性網(wǎng)絡(luò)。
Trillion Gene Atlas的實現(xiàn)得益于超高通量短讀長和長讀長測序技術(shù)以及加速計算的進步。 Basecamp已與Ultima Genomics和PacBio達成合作,實現(xiàn)工業(yè)化規(guī)模的測序,涵蓋數(shù)據(jù)豐富、高精度的長讀長測序。
Ultima是超高通量下一代測序(NGS)系統(tǒng)開發(fā)商。 Ultima最新測序系統(tǒng)UG200系列升級了獨有的晶圓基測序架構(gòu),能夠以低成本實現(xiàn)工業(yè)化規(guī)模的高通量、全基因組及多組學測序,為Trillion Gene Atlas等項目的開展提供了支撐。
Ultima Genomics創(chuàng)始人兼首席執(zhí)行官Gilad Almogy表示:“與語言或計算機視覺等其他領(lǐng)域相比,生物學領(lǐng)域長期以來一直面臨數(shù)據(jù)匱乏的問題,因為研究人員缺乏大規(guī)模生成數(shù)據(jù)的工具。 我們堅信,AI將對人類對生物學與健康的認知產(chǎn)生深遠影響。UG200系列從設(shè)計之初就旨在提供生物AI(BioAI)所需的海量數(shù)據(jù)集,以實現(xiàn)這一宏偉愿景。 很高興我們的技術(shù)能夠支持Basecamp實現(xiàn)其愿景,并推動像Trillion Gene Atlas這樣的創(chuàng)新項目。”
PacBio總裁兼首席執(zhí)行官Christian Henry表示:“PacBio的HiFi測序技術(shù)可提供高精度的長讀長數(shù)據(jù),保留完整的基因組上下文信息,并能在復雜樣本中實現(xiàn)亞種甚至菌株級的分辨率解析。 高保真數(shù)據(jù)為生物AI模型提供了可靠、信息豐富的基礎(chǔ),使其能夠大規(guī)模地向自然學習,支撐Trillion Gene Atlas之類的項目推進。”
Trillion Gene Atlas將借助NVIDIA的加速計算基礎(chǔ)設(shè)施,處理拍字節(jié)級規(guī)模的海量基因數(shù)據(jù)。 作為這項工作的一部分,Basecamp計劃利用NVIDIA Parabricks工具,大幅加速宏基因組組裝。 此次合作聚焦于先進工程技術(shù)與新型算法策略的研發(fā),優(yōu)化復雜環(huán)境樣本的重構(gòu)方式。 得益于這種加速,原本需要20多年完成的千萬億級DNA堿基對處理工作,預計可在不到兩年的時間內(nèi)完成。
通過并行數(shù)據(jù)處理、自動標注和大規(guī)模模型訓練,合作伙伴期望將原本需要20多年處理時間的任務(wù)壓縮到兩年以內(nèi)。 這種對測序、組裝、標注和模型訓練的效率升級,旨在擴展生物基礎(chǔ)模型在治療藥物研發(fā)領(lǐng)域的性能與應(yīng)用范圍。
Anthropic參與此次合作,是其拓展生命科學領(lǐng)域能力、將Claude接入更多科研平臺的重要布局。 通過與Claude for Life Sciences團隊合作,目標是利用Trillion Gene Atlas和EDEN,進一步提升Claude的科研協(xié)作能力,為科學家與臨床醫(yī)生提供更高效支持,助力科研機構(gòu)向公眾落地前沿成果。
通過結(jié)合Claude的高級推理能力、EDEN的療法設(shè)計能力,以及NVIDIA CUDA-X Libraries來處理非結(jié)構(gòu)化數(shù)據(jù),該項目旨在創(chuàng)建一個集成工作流,用于解釋復雜的臨床數(shù)據(jù),并將其直接轉(zhuǎn)化為治療藥物設(shè)計。
Trillion Gene Atlas建立在三大支柱之上:大規(guī)模DNA測序、全球數(shù)據(jù)供應(yīng)合作以及先進計算技術(shù)。 結(jié)合能夠推理復雜數(shù)據(jù)的AI系統(tǒng),這些基礎(chǔ)有助于將龐大的數(shù)據(jù)集轉(zhuǎn)化為治療藥物研發(fā)成果。 通過將可供AI使用的進化數(shù)據(jù)再增加100倍,Basecamp Research致力于實現(xiàn)更高效、更系統(tǒng)化的藥物設(shè)計,延續(xù) EDEN模型在基因治療和抗擊耐藥細菌等領(lǐng)域取得的前期進展。