Tencent's Qiu Yuepeng: The explosion of inference demand requires simultaneous upgrades to cloud infrastructure

華爾街見聞
2025.09.16 08:03
portai
I'm PortAI, I can summarize articles.

騰訊雲已在推理加速、Agent Infra 和國際化佈局等方面取得突破。

作者 | 黃昱

2025 年 AI 應用爆發,同時迎來 Agent 元年等背景下,推理需求暴漲。為了抓住這一機遇,雲服務廠商也積極升級雲基礎設施,來滿足市場需求。

9 月 16 日,在 2025 騰訊全球數字生態大會上,騰訊集團副總裁、騰訊雲總裁邱躍鵬表示,大模型產業重心從訓練到推理的轉變,已經成為行業共識。同時客户對於使用大模型和建設 Agent 迸發出強烈熱情,這都帶來了推理需求的暴漲。

這也意味着,AI 基礎設施要同步升級。

近年來,騰訊雲正不斷升級雲基礎設施,以支撐 Agent 規模化落地和企業全球化發展。據邱躍鵬介紹,騰訊雲已在推理加速、Agent Infra 和國際化佈局等方面取得突破,並將以更加開放的姿態,助力企業把握時代機遇。

在推理加速方面,騰訊雲深入參與開源貢獻,向 DeepSeek、vLLM、SGLang 等社區提交了多項優化技術。同時,針對大模型推理面臨的內存瓶頸,騰訊雲自研並開源 FlexKV 多級緩存技術,大幅降低 KVCache 的佔用,將首字時延降低多達 70%。

同時,邱躍鵬透露,騰訊雲依託異構計算平台整合多種芯片資源,向外界提供高性價比的 AI 算力。目前,該平台已全面適配主流國產芯片。

據悉,軟硬件協同全棧優化是騰訊雲的長期戰略投入,通過異構計算平台的軟件能力,整合不同類型的芯片對外提供高性價比的 AI 算力。

今年被視作 Agent 元年,當前沿技術走向企業生產環境,如何確保其在一個安全可信的環境中高效運行成為新的挑戰。為此,騰訊雲還推出了全新的 Agent infra 解決方案——Agent Runtime。

Agent Runtime 集成了執行引擎、雲沙箱、上下文服務、網關、安全可觀測服務等五大能力。其中,雲沙箱基於自研技術,啓動時間只需 100 毫秒,支持數十萬實例併發。

除了面向 Agent 升級基礎設施,邱躍鵬指出,騰訊雲也在思考如何將 Agent 能力應用在客户的雲上旅程,幫助客户更好的用雲、管雲,於是就有了騰訊雲的專家服務智能體——Cloud Mate。

Cloud Mate 由一系列凝聚了各個雲上領域經驗的子 Agent 構成,它不僅僅是一項技術,更是騰訊雲海量實踐的匯總,能夠可視化治理雲上架構、前置攔截風險,並大幅提升問題處理效率,改變管理雲的方式。

邱躍鵬透露,在內部實踐中,Cloud Mate 實現風險 SQL 攔截率 95%,排障時間從 30 小時縮短至最快 3 分鐘。

Agent 時代洶湧而來,雲服務廠商們正在積極打好這場軍備戰。