德州奧斯汀和加州聖荷西2026年3月20日 /美通社/ -- 專注生物設(shè)計的前沿人工智能 (AI) 實驗室 Basecamp Research 今日宣佈,正式啟動極具里程碑意義的科學(xué)計劃 Trillion Gene Atlas(萬億基因組圖譜),目標(biāo)是生成並建立達到萬億基因規(guī)模的生物數(shù)據(jù)模型。 此計劃由 Basecamp Research 聯(lián)同 Anthropic、Ultima Genomics 及 PacBio 共同發(fā)起,並以 NVIDIA AI 基礎(chǔ)設(shè)施作為技術(shù)核心,目標(biāo)是從全球數(shù)千個地點、超過一億個物種中收集基因組數(shù)據(jù),將已知的進化遺傳多樣性擴充 100 倍。
此一目標(biāo)得以實現(xiàn),關(guān)鍵在於 Basecamp Research 的全球生物多樣性合作夥伴網(wǎng)絡(luò)正不斷擴展。 終極目標(biāo)是為人工智能系統(tǒng)提供海量的多元訓(xùn)練數(shù)據(jù),讓人工智能從生物演化中學(xué)習(xí),按需求設(shè)計新藥物。
Basecamp Research 聯(lián)合創(chuàng)辦人兼行政總裁 Glen Gowers 在奧斯汀舉行的 SXSW 大會上表示:「現(xiàn)今的生物人工智能模型,其訓(xùn)練基礎(chǔ)僅涵蓋地球生命的一小部分。 Trillion Gene Atlas 將已知的基因範(fàn)疇大幅擴展,遠(yuǎn)超現(xiàn)有公共數(shù)據(jù)庫所涵蓋的範(fàn)圍。 在此規(guī)模下訓(xùn)練模型,將為可編程療法設(shè)計樹立全新典範(fàn)。」
這項與人類基因組計劃 (Human Genome Project) 規(guī)模相當(dāng)?shù)捻椖浚?SXSW 的健康論壇以及聖荷西舉行的 NVIDIA GTC 大會上公佈。
隨著模型規(guī)模和運算能力不斷提升,多元數(shù)據(jù)已成為推動人工智能藥物研發(fā)和實際應(yīng)用基準(zhǔn)測試進步的關(guān)鍵。 目前所有基於序列的基礎(chǔ)模型均依賴相同公共數(shù)據(jù)庫的不同版本,其中 80% 在一個載有少於 2.5 億個序列的公共數(shù)據(jù)庫上接受訓(xùn)練。
Basecamp Research 在 1 月發(fā)佈了 EDEN 基礎(chǔ)模型,當(dāng)中完全使用其專有基因組數(shù)據(jù)庫 BaseData? 進行訓(xùn)練,成功繞過業(yè)界在演化研究上的「數(shù)據(jù)高牆」。目前 BaseData? 的規(guī)模已超過所有公共資源總和的 10 倍。 透過從 100 萬個新發(fā)現(xiàn)的物種中學(xué)習(xí)前所未有的 100 億個科學(xué)新基因,EDEN 為生物人工智能解鎖了關(guān)鍵的全新規(guī)模定律。
數(shù)據(jù)集多樣性的大幅擴充,令 EDEN 的能力不再局限於簡單預(yù)測,而進一步成為首個能夠直接根據(jù)疾病提示指令設(shè)計出多元療法的模型。 在濕實驗室驗證中,EDEN 在原代人類 T 細(xì)胞中展現(xiàn)零樣本活性,而無需任何人體或臨床數(shù)據(jù)。 該模型已在多種先進治療模式中成功產(chǎn)生有效成果,開創(chuàng)性地實現(xiàn)人工智能可編程基因插入 (aiPGI) 以插入健康基因,並設(shè)計出針對優(yōu)先病原體而命中率高達 97% 的靶向抗菌肽。
Trillion Gene Atlas 基於此成功經(jīng)驗,進一步擴大適合人工智能訓(xùn)練的基因組數(shù)據(jù)的廣度及背景深度,豐富我們已知的「生物互聯(lián)網(wǎng)」。
Basecamp Research 技術(shù)總監(jiān) Phil Lorenz 補充說:「純粹追求更大的模型絕不足夠。 EDEN 的經(jīng)驗表明,當(dāng)注入更加優(yōu)質(zhì)且脈絡(luò)完整的數(shù)據(jù),生物人工智能的性能將沿更陡峭的擴展軌跡顯著提升。 Trillion Gene Atlas,就是要把此成功法則再擴大 100 倍。」
過去六年,Basecamp Research 已在 31 個國家建立起科學(xué)合作者網(wǎng)絡(luò),並建立出專為人工智能訓(xùn)練而設(shè)且方便擴展的進化基因組學(xué)流程。 透過開創(chuàng)性地結(jié)合新的監(jiān)管與經(jīng)濟框架,以及完全離網(wǎng)的 DNA 測序技術(shù),公司從傳統(tǒng)實驗室無法觸及的生態(tài)系統(tǒng)中收集優(yōu)質(zhì)基因組數(shù)據(jù)。
這些合作夥伴關(guān)係的基石,在於交流知識、協(xié)助當(dāng)?shù)亟⒖蒲心芰Γ约胺闲屡d數(shù)碼序列資訊規(guī)範(fàn) (Digital Sequence Information regulations) 的公平取得與利益分享協(xié)議 (Access and Benefit-Sharing agreements)。 此合作框架確保公司在合作夥伴地區(qū)投資科學(xué)基礎(chǔ)建設(shè)和人才培訓(xùn)的同時,也能負(fù)責(zé)任地大規(guī)模收集優(yōu)質(zhì)基因組數(shù)據(jù)。
隨著 Trillion Gene Atlas 啟動,Basecamp 同時宣佈將在智利及阿根廷建立新合作夥伴關(guān)係,並進一步深化在南極洲的現(xiàn)有合作,以擴張其全球生物多樣性網(wǎng)絡(luò)。
Trillion Gene Atlas 的實現(xiàn),有賴超高通量短讀長和長讀長 (ultra-high-throughput short- and long-read) 測序以及加速運算的進步。 Basecamp 已與 Ultima Genomics 和 PacBio 合作,提供工業(yè)規(guī)模的測序服務(wù),包括數(shù)據(jù)豐富且極度準(zhǔn)確的長讀長測序。
Ultima 是超高通量新一代測序 (NGS) 系統(tǒng)的開發(fā)商。 Ultima 最新推出的 UG200 系列測序系統(tǒng),在其獨特的晶圓級測序架構(gòu)上再作突破,能以極具競爭力的成本,實現(xiàn)工業(yè)級規(guī)模的高通量全基因組及多組學(xué)測序,以支持類似 Trillion Gene Atlas 的計劃。
Ultima Genomics 創(chuàng)辦人兼行政總裁 Gilad Almogy 表示:「一直以來,相比語言或電腦視覺等領(lǐng)域,生物學(xué)可說是極缺數(shù)據(jù),原因在於研究人員始終缺乏能夠大規(guī)模產(chǎn)生數(shù)據(jù)的合適工具。 我們深信,人工智能將深深影響我們對生物學(xué)和人類健康的認(rèn)知。而G200 系列從設(shè)計之初,就是為了提供生物人工智能 (BioAI) 實現(xiàn)此宏願所需而且規(guī)模前所未有的數(shù)據(jù)集。 我們很高興本公司的技術(shù)能夠幫助 Basecamp 實現(xiàn)其願景,並推動像 Trillion Gene Atlas 這樣的創(chuàng)新計劃。」
PacBio 總裁兼行政總裁 Christian Henry 表示:「PacBio HiFi 測序可提供超準(zhǔn)確的長讀長,保留完整基因組背景,並能在複雜樣本中實現(xiàn)亞種甚至菌株水平的精細(xì)解像。 HiFi 數(shù)據(jù)提供資訊豐富的可靠基礎(chǔ),生物人工智能模型需要這些基礎(chǔ)來大規(guī)模地向自然學(xué)習(xí),並推動像 Trillion Gene Atlas 這樣的計劃。」
Trillion Gene Atlas 將借助 NVIDIA 的加速運算基礎(chǔ)設(shè)施,來處理達到 PB 量級的龐大遺傳數(shù)據(jù)。 為此,Basecamp 計劃借助 NVIDIA Parabricks 的強大功能,顯著加快宏基因組 (metagenomic) 的組裝速度。 此次合作聚焦於先進工程和新演算法方式的開發(fā),以使複雜環(huán)境樣本的重建方式更加完善。 得益於此,處理數(shù)以萬億計的 DNA 鹼基對 (DNA base pairs) 這項原本需要耗時超過 20 年的浩大工程,預(yù)計將可在 2 年內(nèi)大功告成。
合作夥伴預(yù)計,通過導(dǎo)入並行數(shù)據(jù)處理、自動化註解以及大規(guī)模模型訓(xùn)練,這項原本耗時超過 20 年的工作,最終能壓縮至短短 2 年內(nèi)完成。 這種對測序、組裝、註釋和模型訓(xùn)練的壓縮,旨在擴大生物基礎(chǔ)模型在治療開發(fā)中的性能和範(fàn)圍。
Anthropic 的加入,屬於為生命科學(xué)領(lǐng)域注入新動能的整體策略,有關(guān)策略旨在將 Claude 與更多科學(xué)平臺連接起來,發(fā)揮更大效用。 與 Claude for Life Sciences 團隊合作,目標(biāo)是利用 Trillion Gene Atlas 和 EDEN,使 Claude 成為科學(xué)家及臨床醫(yī)生更高效的科研夥伴,並支持機構(gòu)將新科學(xué)成果帶給公眾。
此計劃結(jié)合 Claude 的先進推理能力、EDEN 的療法設(shè)計專長,並運用 NVIDIA 的 CUDA-X Libraries 處理非結(jié)構(gòu)化數(shù)據(jù),目標(biāo)是建立一體化工作流程,能夠解讀複雜的臨床數(shù)據(jù),並直接將其應(yīng)用於療法設(shè)計。
Trillion Gene Atlas 建立在三大支柱上:大規(guī)模 DNA 測序、全球數(shù)據(jù)供應(yīng)合作夥伴關(guān)係和先進運算。 當(dāng)這些基礎(chǔ)與能在複雜數(shù)據(jù)中進行推理的人工智能系統(tǒng)結(jié)合,便能將海量數(shù)據(jù)轉(zhuǎn)化為開創(chuàng)性的治療發(fā)現(xiàn)。 透過將可供人工智能使用的進化數(shù)據(jù)再增加 100 倍,Basecamp Research 旨在使藥物設(shè)計變得更加快捷、更系統(tǒng)化,將 EDEN 在基因治療和對抗耐藥菌等領(lǐng)域的早期進展進一步擴大。

繁體中文知識庫正在建設(shè)中,請您選擇簡體中文或英文版查看。
Copyright © 2025 美通社版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載.
Cision 旗下公司.