近年來,大模型的熱潮已經(jīng)擴(kuò)展到自然語言和圖片生成之外的更多領(lǐng)域,其中生命科學(xué)大模型毫無疑問以其高技術(shù)門檻和高應(yīng)用價值,成為市場關(guān)注的焦點,科學(xué)界和產(chǎn)業(yè)界對大模型在藥物研發(fā)、生物制造、醫(yī)療健康等問題上的賦能抱有很高期望。作為全球生命科學(xué)基礎(chǔ)大
近年來,大模型的熱潮已經(jīng)擴(kuò)展到自然語言和圖片生成之外的更多領(lǐng)域,其中生命科學(xué)大模型毫無疑問以其高技術(shù)門檻和高應(yīng)用價值,成為市場關(guān)注的焦點,科學(xué)界和產(chǎn)業(yè)界對大模型在藥物研發(fā)、生物制造、醫(yī)療健康等問題上的賦能抱有很高期望。
作為全球生命科學(xué)基礎(chǔ)大模型的先行者,BioMap百圖生科在10月27日舉辦的第三屆中國生物計算大會上,正式發(fā)布了全新一代生命科學(xué)基礎(chǔ)大模型——xTrimoV3,為行業(yè)交上一份全新的答卷。據(jù)悉,該模型在V2大模型突破千億參數(shù)、理解蛋白質(zhì)語言的基礎(chǔ)上,進(jìn)一步擴(kuò)展到2100億參數(shù),覆蓋蛋白質(zhì)、DNA、RNA等七大生命科學(xué)主流模態(tài),能夠建模更加廣泛的基因組學(xué)、細(xì)胞、系統(tǒng)等問題,為基因編輯、靶點發(fā)現(xiàn)、細(xì)胞調(diào)控、菌株改造、生命科學(xué)圖像分析等場景帶來新的能力。xTrimoV3前傳:四年磨一劍,劍成龍光寒作為全球最早專注于生命科學(xué)基礎(chǔ)大模型的平臺公司,自2020年成立以來,百圖生科始終致力于在這一高難度技術(shù)平臺上取得突破——生命科學(xué)基礎(chǔ)大模型并非自然語言大模型+生物學(xué)文本的垂直應(yīng)用、垂直“大模型”,而是需要圍繞生命科學(xué)的氨基酸、堿基等高復(fù)雜序列數(shù)據(jù),開發(fā)一套與自然語言基礎(chǔ)大模型理念相近,但技術(shù)完全不同的基礎(chǔ)大模型底層技術(shù),從Transformer到訓(xùn)練框架,再到更關(guān)鍵的數(shù)據(jù)集與驗證閉環(huán),都與自然語言大模型截然不同、更加挑戰(zhàn)、更加前沿。如何與生命科學(xué)多樣化具體任務(wù)結(jié)合,如何理解和對齊復(fù)雜的生命科學(xué)組學(xué)數(shù)據(jù),如何理解生命科學(xué)規(guī)律并建立基礎(chǔ)圖譜,如何建立生命科學(xué)行業(yè)原有數(shù)據(jù)規(guī)模百倍以上的超大規(guī)模數(shù)據(jù)集——這些都是過去四年間,生命科學(xué)基礎(chǔ)大模型先行者們所面對的挑戰(zhàn)。2022年和2023年,百圖生科先后發(fā)布xTrimoV1、V2,實現(xiàn)了世界首個千億參數(shù)的生命科學(xué)基礎(chǔ)大模型——利用海量蛋白質(zhì)序列數(shù)據(jù)訓(xùn)練的千億參數(shù)蛋白大模型,參數(shù)量較第二名高8倍以上,在數(shù)十個任務(wù)上超越行業(yè)達(dá)到SOTA水平,特別是支撐蛋白質(zhì)結(jié)構(gòu)預(yù)測等關(guān)鍵問題達(dá)到前所未有的準(zhǔn)確度和性能,實現(xiàn)了大量的商業(yè)和技術(shù)突破;利用海量單細(xì)胞組學(xué)數(shù)據(jù)實現(xiàn)的單細(xì)胞大模型,初步驗證了多維度、跨模態(tài)的技術(shù),為跨模態(tài)建模復(fù)雜生命體打下了堅實的基礎(chǔ),并支撐十余個靶點發(fā)現(xiàn)、細(xì)胞分類等任務(wù)取得SOTA成績。相關(guān)工作多次登上Nature子刊封面和學(xué)術(shù)頂會。xTrimo基礎(chǔ)大模型平臺上,目前已有200余個任務(wù)模型取得評測SOTA水平,在藥物研發(fā)中涉及通用蛋白、多種構(gòu)型的抗體、細(xì)胞療法、基因療法等多個領(lǐng)域,以及靶點發(fā)現(xiàn)、工藝優(yōu)化、合成生物學(xué)、生物制造、生命科學(xué)工具等多樣的方向?;A(chǔ)大模型的貢獻(xiàn),并不在于能以一個單一技術(shù),一己之力解決前沿問題,而是在面對多樣化、缺乏數(shù)據(jù)的前沿問題、缺乏泛化能力的現(xiàn)有模型時,能夠利用千億參數(shù)和萬億數(shù)據(jù)中蘊含的知識,進(jìn)行embedding賦能,為難解之題帶來一些來源于十億年生物進(jìn)化樹上的高維信息。百圖生科打造的200余個AI模型,已先后助力開發(fā)了20余種前沿抗體和酶、實現(xiàn)了10余個創(chuàng)新靶點的挖掘,并都經(jīng)過了實驗驗證,推進(jìn)進(jìn)入臨床前研發(fā)等后續(xù)階段。AI模型驅(qū)動的高通量自動化流程,覆蓋從分子生成、實驗驗證、閉環(huán)迭代的完整鏈路,大幅提高合作客戶的研發(fā)效率,縮短研發(fā)周期。截止目前,百圖生科服務(wù)全球300余家用戶,其中包括跨國藥企、大型CRO、明星創(chuàng)業(yè)公司、國內(nèi)外研究機(jī)構(gòu),簽署了超過20億美元的總潛在訂單,共同在生命科學(xué)領(lǐng)域?qū)崿F(xiàn)了一系列突破。xTrimoV3:模態(tài)全家桶,生命科學(xué)新問題的探索利器此次發(fā)布的基礎(chǔ)大模型xTrimoV3,覆蓋DNA、RNA、蛋白質(zhì)、細(xì)胞、小分子、生物視覺和生物知識文本等生命科學(xué)7個主流模態(tài),并在各個原有模態(tài)上依靠新的數(shù)據(jù)、新的架構(gòu),做了顯著的增強。“這一版本一舉實現(xiàn)了全模態(tài)的覆蓋,從而能支撐快速發(fā)展的生命科學(xué)新領(lǐng)域新問題探索需求。”百圖生科技術(shù)副總裁張曉明介紹,“與V2平臺相比,V3不僅鞏固了之前在蛋白質(zhì)領(lǐng)域的基礎(chǔ)和繼續(xù)了在細(xì)胞領(lǐng)域的發(fā)展,還拓展至基因組學(xué)、轉(zhuǎn)錄組學(xué)、細(xì)胞復(fù)雜任務(wù)、影像分析和文本分析等領(lǐng)域,支持從分子早期研發(fā)到生產(chǎn)放大再到后期實驗分析的全流程AI建模需求。”據(jù)悉,xTrimoV3參數(shù)量突破2100億,繼續(xù)保持全球規(guī)模最大的全模態(tài)生命科學(xué)大模型的領(lǐng)先地位。特別是在蛋白質(zhì)大模型領(lǐng)域,成為全球首個引入先進(jìn)專家混合(MOE)架構(gòu)的生命科學(xué)大模型,參數(shù)量達(dá)到千億級規(guī)模;DNA大模型序列長度躍升至128K,實現(xiàn)超長序列解碼生命,這些升級充分體現(xiàn)了百圖生科在生命科學(xué)基礎(chǔ)大模型領(lǐng)域的持續(xù)創(chuàng)新。如何用好基礎(chǔ)大模型?是否只有又懂生物又懂AI的前沿團(tuán)隊才能得到大模型賦能?百圖生科在內(nèi)部應(yīng)用大模型平臺實現(xiàn)高效建模后,一直在探索更強的工具鏈和產(chǎn)品化能力。2023年3月,百圖生科發(fā)布了基于xTrimo驅(qū)動的AIGP(AIGeneratedProtein)平臺。這個被業(yè)界譽為“能生成蛋白質(zhì)的ChatGPT”,為生命科學(xué)領(lǐng)域的研究者提供了一個便捷的交互窗口,即使是不具備編程能力的科研人員也可利用大模型和數(shù)十個蛋白質(zhì)相關(guān)任務(wù)模型、配套軟硬件系統(tǒng),開展創(chuàng)新蛋白設(shè)計研究。此次xTrimoV3平臺還發(fā)布了專為生命科學(xué)AI模型設(shè)計的模型工具鏈—包含面向多種數(shù)據(jù)場景和用戶需求的ModelBuilder模塊,支持模型管理和組裝的ModelHub模塊,以及加速模型調(diào)用和物理計算的ModelBooster模塊等。“基于xTrimo平臺構(gòu)建專屬任務(wù)模型,讓大模型能力與企業(yè)的私有數(shù)據(jù)、特定需求相結(jié)合,快速為企業(yè)打造專屬的AI工具,是V3平臺的重要特征之一。”張曉明介紹,“我們還結(jié)合已有模型與模型定制能力,在不同行業(yè)提出了藥物研發(fā)解決方案、生物制造解決方案和AI4LS平臺解決方案,通過AI模型和配套的服務(wù),幫助企業(yè)加速創(chuàng)新,提升研發(fā)效率、優(yōu)化流程,讓企業(yè)能夠更快地從實驗室走向市場,直觀感受到大模型作為直接生產(chǎn)力的巨大效能,推動行業(yè)的全面智能化發(fā)展。”關(guān)于BioMap百圖生科BioMap百圖生科是全球生命科學(xué)基礎(chǔ)大模型的先行者,通過2100億參數(shù)的跨模態(tài)生物語言大模型,解碼蛋白質(zhì)、細(xì)胞、生物系統(tǒng)等底層規(guī)律,以更小的數(shù)據(jù)和成本消耗,構(gòu)建高質(zhì)量的生命科學(xué)AI任務(wù)模型。BioMap在藥物研發(fā)、生物制造、醫(yī)療健康等領(lǐng)域?qū)崿F(xiàn)了200余個State-of-the-Art(SOTA)模型表現(xiàn),服務(wù)全球300余家用戶,實現(xiàn)超過20億美元的總客戶訂單,助力用戶在AI全新蛋白質(zhì)設(shè)計、AI靶點發(fā)現(xiàn)、AI酶設(shè)計等領(lǐng)域取得了眾多突破性成果。公司由百度創(chuàng)始人李彥宏與原百度風(fēng)投CEO劉維共同創(chuàng)立,并由原諾和諾德全球副總裁、原SAP全球副總裁等業(yè)界高管組成核心團(tuán)隊,在硅谷、北京、蘇州、香港設(shè)立研發(fā)中心,先后獲得超過2億美元風(fēng)險投資。公司官網(wǎng):https://www.biomap.com