
中國移動集團首席科學家馮俊蘭博士日前出席在成都舉辦的AI for Life Science研討會,并發(fā)表題為《向內(nèi)核要未來——從AI for Science 到 AI for Industry》的邀請報告。
科研范式的變化
當前,AI技術(shù)正以驚人的速度發(fā)展,科研成果的發(fā)布周期顯著縮短。AI技術(shù)之所以能夠快速迭代主要得益于三大因素:資本與人才的匯聚、數(shù)據(jù)與算力的突破,以及研究范式的變化。AI展現(xiàn)出強大的穿透能力,帶來全新的用戶體驗,并開辟了全新的可能性。例如,以前的語音交互系統(tǒng),包含了前端噪聲和回音去除、語音識別、轉(zhuǎn)文字、文字理解及功能實現(xiàn)等多個環(huán)節(jié),而現(xiàn)在的AI技術(shù)可以將所有環(huán)節(jié)全部壓縮到一個模型,實現(xiàn)端到端的學習和優(yōu)化,這種穿透性也帶來了“AI+”的范式變革。
從‘+AI’到‘AI+’的轉(zhuǎn)變,并非僅僅是表述上的調(diào)整,而是標志著核心主體的根本性變化?!?AI”范式下,行業(yè)或科研主體流程基本不變,通過融入AI技術(shù)來提升效率和解決難題。隨著AI基座模型的突破,核心主體變成了AI,基座平臺和模型成為穩(wěn)態(tài)底座,行業(yè)的業(yè)務、流程和工具向底座靠近,效率得以大幅提升。AI for Science(AI4S)作為當前一個重要研究方向,是AI和科研兩個方向的相遇,AI最初被設計用來模擬生命體,做生命體能做的事情,現(xiàn)在AI開始反向使能生命科學的研究。
當代AI技術(shù)的特征將加速科研效率的提升
隨著新成果的快速涌現(xiàn),當前,科學家在研究中正面臨多重挑戰(zhàn):知識量龐大且更新迅速,其復雜度、廣度及深度均大幅提升;同時,從海量數(shù)據(jù)中,如實驗數(shù)據(jù)和生命科學表征數(shù)據(jù)中推理出模式難,加之實驗周期長、潛在研究路徑眾多,無疑增加了研究的難度。
大模型技術(shù)帶來的本質(zhì)改變并不是參數(shù)量規(guī)模的變化,而是相較于小模型只能完成一個或幾個特定任務,大模型具有完成無限任務、探索更多可能性的潛力。針對科學研究中面臨的挑戰(zhàn),當代AI技術(shù)可以從以下五個方面提供解決思路:
一是強大的知識表征與深度思考能力。簡單的注意力機制在知識吸收、產(chǎn)出和發(fā)現(xiàn)相互作用方面具有巨大的潛力,大模型技術(shù)通過用更大的參數(shù)量和更復雜得多模態(tài)組合將知識融合和表征出來,并發(fā)現(xiàn)多層多域的復雜相關關系,這為科學研究帶來很大的自由度,以往依賴直覺的研究現(xiàn)在可以交給AI來發(fā)現(xiàn)。
二是結(jié)構(gòu)化數(shù)據(jù)大模型??茖W研究與行業(yè)生產(chǎn)非常相似的地方是都會產(chǎn)生大量的結(jié)構(gòu)化數(shù)值數(shù)據(jù),以通信行業(yè)為例,每天產(chǎn)生的網(wǎng)絡數(shù)據(jù)壓縮后有12PB。結(jié)構(gòu)化數(shù)據(jù)大模型通過對歷史數(shù)據(jù)、代碼、文字解釋之間相關關系的學習,能夠知道從哪些角度去分析這些巨量的數(shù)據(jù),這種對大量結(jié)構(gòu)化數(shù)據(jù)的分析能力可以有效使能科研人員的研究工作。
三是智能體協(xié)同,谷歌最新推出的虛擬科學家合作伙伴AI co-scientist,是基于Gemini 2.0構(gòu)建的多智能體AI系統(tǒng),通過使用一系列專業(yè)化的智能體,在3個關鍵的生物醫(yī)學應用中探究了 AI co-scientist 生成的假設和研究建議。
四是集約化的訓推技術(shù)。當前,人工智能平臺通過集中算力、數(shù)據(jù)、模型等資源、優(yōu)化大規(guī)模分布式訓練和推理效率、共享底層軟硬件基礎資源等,為科學研究提供集約化的訓練和推理技術(shù)以及自動化工具和標準化流程,可以使科研人員專注于專業(yè)領域的探索與創(chuàng)新,提升科學研究效率。
五是數(shù)據(jù)生成與環(huán)境模擬技術(shù)。智能的來源主要有兩種,數(shù)據(jù)和環(huán)境。數(shù)據(jù)中包含的“本質(zhì)的密度”決定了數(shù)據(jù)的價值,比如要研究一個球在空間中的運動規(guī)律,可以用幾個攝像機把運動的視頻拍下來,也可以直接測量它的空間位置隨時間的變化,這兩者包含的本質(zhì)信息是一樣的,當代生成式大模型技術(shù)可以通過生成類數(shù)據(jù)解決核心數(shù)據(jù)不足的問題。在生命科學領域,通過應用各種人工智能最新技術(shù),可以探索和找到真正表征研究問題的數(shù)據(jù),以及實現(xiàn)數(shù)據(jù)生成和快速迭代的方法。環(huán)境是智能的另一個主要來源。每個行業(yè)都需要構(gòu)建大型的模擬器,例如通信網(wǎng)的實驗需要構(gòu)建符合電磁波時空傳輸特性的模型,在模擬環(huán)境中進行仿真并產(chǎn)生大量的動態(tài)實驗數(shù)據(jù),觀察參數(shù)改變對網(wǎng)絡性能的影響。這對生命科學研究的啟發(fā)是,除了構(gòu)建模型,還需要構(gòu)建一些具備與基座模型對話、提供動態(tài)反饋的模擬環(huán)境。DeepSeek R1突破的一個關鍵就在于它為基座模型找到了兩個反饋非常精準的領域:數(shù)學和代碼,只要反饋足夠精確,即便數(shù)據(jù)量不大,也能獲得顯著的推理能力提升。
生命科學領域本質(zhì)性問題的突破,可能依賴于新型模型架構(gòu)的構(gòu)建和創(chuàng)新性方法的提出,在當前階段,充分挖掘并最大化利用現(xiàn)有人工智能技術(shù)的潛力,無疑是推動研究進程的關鍵策略之一。
人工智能基座平臺賦能科學研究全流程
隨著人工智能軟硬件技術(shù)的快速發(fā)展,“模型+平臺”構(gòu)成了“AI+”范式中的核心基座,但 AI 的基礎設施規(guī)模愈加龐大且模型架構(gòu)愈加復雜。每當AI新技術(shù)出現(xiàn)時,各公司或團隊需要在短時間內(nèi)快速復現(xiàn)、測試與更新,把最新的技術(shù)帶到應用、工作和科研當中,這需要大量專業(yè)的開發(fā)和測試工程師,同時算力底座與數(shù)據(jù)平臺的建設運維也依賴大規(guī)模團隊。
對于大多數(shù)科研團隊而言,其成員多非計算機專業(yè)出身,難以獨立開展 AI for Science工作。此時,人工智能基座平臺就顯得尤為重要。一方面,基座平臺要能夠講“科學家的語言”??茖W研究涉及生命科學、材料學等多個領域,基座平臺通過提供直觀、易用的界面和工具,讓科研人員能夠以他們熟悉的方式與AI交互。例如,借助自然語言處理技術(shù),平臺能夠精準捕捉科研人員的需求,迅速轉(zhuǎn)化為可操作的AI任務;同時,可視化工具讓科研人員得以直觀探索數(shù)據(jù)、輕松調(diào)試模型,無需深陷復雜算法細節(jié)的泥潭。另一方面,基座平臺全面覆蓋科研全流程,在數(shù)據(jù)治理方面,有效整合、清洗多源異構(gòu)數(shù)據(jù),確保數(shù)據(jù)的精準與可用;其數(shù)據(jù)探索功能則助力科研人員深挖數(shù)據(jù)背后的規(guī)律,發(fā)掘潛在價值。同時,平臺需要集成各學科的常用工具和機理模型,提供豐富的AI模型和仿真套件,形成“數(shù)據(jù)-模型-仿真”的科學研究閉環(huán),幫助科研人員快速驗證假設、優(yōu)化實驗設計。
因此,基座平臺要和科研團隊緊密融合,建立一種新的閉環(huán)合作范式,類似于谷歌和斯坦福合作推出AI co-scientist,英偉達、Arc研究所、斯坦福合作推出Evo-2。
從AI for Science到AI for Industry
當前,人工智能基座發(fā)展迎來了重要時刻,并帶來了應用范式落地的改變,2025年,人工智能對各個行業(yè)的發(fā)展將迎來兩個趨勢:向規(guī)模要價值、向內(nèi)核要未來。
向規(guī)模要價值:“AI+”能否成功,取決于其帶來的價值是否遠超投入,近年來,人工智能技術(shù)能力取得了顯著提升,然而,在規(guī)?;瘍r值的創(chuàng)造上尚未實現(xiàn)突破性進展,當前,探索AI在產(chǎn)業(yè)中規(guī)?;瘍r值實現(xiàn)的路徑仍面臨諸多挑戰(zhàn)。
向內(nèi)核要未來:內(nèi)核是每個產(chǎn)業(yè)之所以存在的靈魂,內(nèi)核的智能化和效率提升是決定該產(chǎn)業(yè)能否持續(xù)占據(jù)領先地位的關鍵因素。當前各行各業(yè)的內(nèi)核就是科學,我們在依托平臺加速科研效率的同時,也將會加速產(chǎn)業(yè)內(nèi)核的升級。
中國移動AI4S能力與實踐
中國移動具備完善的智算中心基礎設施和人工智能基座,包括算力底座、AI平臺、數(shù)據(jù)處理平臺、九天系列模型,可以支撐模型訓練,支持數(shù)據(jù)清洗、標注、優(yōu)化,匯聚各類模型,支持模型優(yōu)化,以及應用模型規(guī)?;牟渴?。中國移動的九天結(jié)構(gòu)化數(shù)據(jù)大模型,成功將結(jié)構(gòu)化數(shù)據(jù)分析應用至大規(guī)模生產(chǎn)實踐;同時,九天模型的數(shù)據(jù)處理能力也為眾多央企的復雜文獻數(shù)據(jù)識別提供了強大支持,能夠精準識別并輸出復雜公式表達。九天的慢思考能力可以用于設計生物實驗以及輔助醫(yī)療診斷。
去年中國移動推出了AI4S科學實驗裝置,提供面向科學領域的公共科研開放創(chuàng)新平臺。該裝置集合了科研模型研發(fā)基礎工具集、科學模型服務平臺、生物蛋白等科學領域工具套件,提供端到端極簡科研開發(fā)流程,讓科學家專注自身專業(yè)領域,提升科研模型研發(fā)效率,賦能和加速國家高精尖科學問題研究。當前AI4S科學裝置已入駐國內(nèi)頂尖材料科學、蛋白質(zhì)預測等科研團隊,開展RNA等大模型RESM訓練,助力疫苗等藥物研發(fā)。
面向未來,中國移動誠邀國內(nèi)更多科研團隊入駐AI4S科學裝置,共研生物蛋白、化學材料、原子物理等領域的科學模型,利用AI技術(shù)探索解決基因、生物、航天、海洋等場景化科學問題,沉淀智能科研工具能力套件,共拓AI賦能交叉學科前沿新方向。
