
近日,著名國際人工智能獨立評測機構Artificial Analysis榜單更新,由中國電信人工智能研究院(TeleAI)和中電信人工智能科技有限公司創(chuàng)新打造的星辰多模態(tài)視頻生成大模型TeleVideo 2.0在“Image to Video Leaderboard”(圖生視頻)排名中位列全球前五,國內前三。
星辰大模型是中國電信CTO、首席科學家、中國電信人工智能研究院(TeleAI)院長李學龍教授帶領科研團隊自主研發(fā)的全模態(tài)、全尺寸、全國產大模型體系。TeleVideo是星辰大模型體系下的多模態(tài)視頻生成大模型,于2024年12月在“TeleAI開發(fā)者大會”正式發(fā)布。
在Artificial Analysis評選中,榜單通過對比人類主觀偏好,從內容一致性、運動與時間穩(wěn)定性、語義合理性以及整體視覺質量等多個維度綜合評估模型的視頻生成能力。TeleVideo 2.0之所以能在一眾國際領先模型中排名前列,得益于TeleAI團隊在數據、算法、框架等多維方面的技術創(chuàng)新力。
數據決定模型能力的上限,TeleAI科研團隊構建了一套嚴苛的“篩選-清洗-均衡-適配”數據流水線,確保生成的每一幀畫面都具備高質量呈現(xiàn)。在內容素材方面,TeleVideo 2.0積累了規(guī)??捎^的數據池,涵蓋人物、動物、自然、城市等全場景,以及日常生活、復雜交互等各類動作,風格兼具寫實、卡通等多種表現(xiàn)形式。模型不僅能生成逼真的物理世界,也能駕馭極具想象力的藝術畫面。
傳統(tǒng)視頻模型常面臨畫面崩壞、動作不連貫等難題。TeleVideo 2.0則采用了一種全新的“全局規(guī)劃+局部精修”模型架構,通過“下一幀率預測”范式,避免傳統(tǒng)模型因逐幀堆砌導致的誤差累積。這種架構設計能讓物體運動軌跡更加絲滑自然,人物神態(tài)與背景細節(jié)始終保持穩(wěn)定統(tǒng)一,從而生成出觀感極佳、動態(tài)逼真的高質量視頻內容。
此外,TeleVideo 2.0還提出了一套統(tǒng)一的視頻后訓練框架,從反饋建模、信用分配與訓練調度三個層面進行協(xié)同設計。該框架將視頻后訓練從經驗驅動的調參過程轉變?yōu)榭稍\斷、可解釋、可持續(xù)演進的系統(tǒng)工程,為長時間、高分辨率視頻生成提供了一條穩(wěn)定且可擴展的強化學習對齊路徑,進一步提升了模型效果。
強大的模型離不開高效的算力底座,TeleAI采用了自主研發(fā)的TeleTron視頻生成訓練框架,為TeleVideo 2.0的訓練和迭代提供強勁動力。TeleTron是國內首個支持長視頻(分鐘級)和超高分辨率(2K)的視頻生成大模型訓練框架。相比主流的DeepSpeed框架,TeleTron通過創(chuàng)新的“分布式多模態(tài)編碼器技術”,實現(xiàn)了單位資源處理效率提升3.5倍,現(xiàn)已全面開源。
基于TeleVideo 2.0的強大能力,TeleAI自主研發(fā)并面向公眾推出了央企首個“全鏈路AI視頻創(chuàng)作平臺TeleStudio”,具備“文生圖-文生視頻-圖生視頻-角色驅動”的全鏈路創(chuàng)作能力,既滿足專業(yè)創(chuàng)作者對高清視頻、復雜動作生成的高階需求,又通過模板化配置、流程化指引降低普通用戶的操作門檻。近日,TeleStudio視頻創(chuàng)作大賽火熱開啟,歡迎具備好創(chuàng)意、好點子的用戶踴躍參與。
