
Alibaba DeepSeek moment! Open-source new architecture model: inference 10 times faster, cost reduced by 90%

阿里巴巴於今晨開源新架構模型 Qwen3-Next-80B-A3B,採用混合注意力機制和高稀疏性 MoE,訓練成本較 Qwen3-32B 降低 90%,推理效率提升 10 倍。該模型在超長文本處理上表現優異,性能可媲美阿里旗艦模型 Qwen3-235B,並超越谷歌 Gemini-2.5-Flash,成為低能耗開源模型之一。網友對其架構讚賞有加,認為其設計出色。
今天凌晨 2 點,阿里巴巴開源了新架構模型 Qwen3-Next-80B-A3B,對混合注意力機制、高稀疏性 MoE、訓練方法等進行了大幅度創新,迎來了自己的 DeepSeek 時刻。
Qwen3-Next 是一個混合專家模型總參數 800 億,僅激活 30 億,訓練成本較 Qwen3-32B 暴降 90%,推理效率卻提升 10 倍,尤其是在超長文本 32K 以上的提示場景中。
性能方面,Qwen3-Next 的指令微調模型在推理與長上下文任務中,可媲美阿里的旗艦模型 Qwen3-235B;思考模型則超過了谷歌最新的 Gemini-2.5-Flash 思考模型,成為目前最強低能耗開源模型之一。

在線體驗:https://chat.qwen.ai/
開源地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
阿里 API:https://www.alibabacloud.com/help/en/model-studio/models#c5414da58bjgj
網友對阿里新模型的架構非常讚賞,表示,半年前我才剛跟聯合創始人聊過類似這樣的架構!當時好像把它叫做 “動態權重注意力” 之類的,具體名字記不太清了。這設計真的太出色了!

昨天我測試了好幾款模型:思維模式下的 ChatGPT-5、Claude-4,還有專家模式下的 Grok-4。剛剛又測了 Qwen3 Next。在所有這些模型裏,只有你們這款模型第一次嘗試就給了我正確答案。真的太出色了!

未來以來,這個模型擊敗了谷歌的 Gemini-2.5-Flash。

在這裏看到 DeltaNet 的應用,真的有點讓人驚喜!我很好奇,如果換成模型架構發現的 AlphaGo 時刻這篇論文中提出的模型架構,這款模型的性能會發生怎樣的變化?

800 億參數、超高稀疏性再加上多 token 預測,這配置太驚豔了!要是你的 GPU 有足夠顯存,用它跑起來速度絕對飛快。

基本上老外對阿里的創新模型非常滿意,讚美超多。

Qwen3-Next 架構簡單介紹
阿里認為上下文長度擴展與總參數擴展是大模型未來發展的兩大核心趨勢,為在長上下文和大參數場景下進一步提升訓練與推理效率,他們設計了全新的模型架構 Qwen3-Next。
相較於 Qwen3 的 MoE 結構,Qwen3-Next 進行了多項關鍵改進,包括混合注意力機制、高稀疏性 MoE 結構、利於訓練穩定性的優化手段,以及可實現更快推理的多 token 預測機制。
在核心特性方面,Qwen3-Next 採用門控 DeltaNet+ 門控注意力的混合創新架構。線性注意力雖能打破標準注意力的二次複雜度,更適合長上下文處理,但僅用線性注意力或標準注意力均有侷限。

線性注意力速度快但召回能力弱,標準注意力推理時成本高、速度慢。經系統實驗驗證,門控 DeltaNet 的上下文學習能力優於滑動窗口注意力、Mamba2 等常用方法,將其與標準注意力按 3:1 比例,75% 層用門控 DeltaNet,25% 層保留標準注意力結合,模型性能持續超越單一架構,實現性能與效率的雙重提升。
標準注意力層還進行了多項增強,如採用此前研究中的輸出門控機制以減少注意力低秩問題、將每個注意力頭的維度從 128 提升至 256、僅對前 25% 位置維度應用旋轉位置編碼以改善長序列外推能力。
稀疏性設計上,Qwen3-Next 採用超高稀疏性 MoE 結構,800 億總參數在每步推理中僅激活約 30 億,佔比 3.7%。實驗表明,在全局負載均衡的前提下,固定激活專家數量並增加專家總參數,能穩步降低訓練損失。與 Qwen3 的 MoE 相比,Qwen3-Next 將總專家數擴展至 512 個,結合 10 個路由專家 +1 個共享專家的設計,在不影響性能的同時最大化資源利用率。

訓練穩定性優化方面,注意力輸出門控機制有效解決了注意力 Sink、大規模激活等問題,保障模型數值穩定性;針對 Qwen3 中 QK-Norm 存在的部分層歸一化權重異常增大問題,Qwen3-Next 採用零中心 RMSNorm,並對歸一化權重施加權重衰減以防止無界增長;初始化時對 MoE 路由器參數進行歸一化,確保訓練初期每個專家都能被無偏選擇,減少隨機初始化帶來的噪聲。這些設計提升了小規模實驗的可靠性,保障大規模訓練平穩進行。
多 token 預測機制也是 Qwen3-Next 的亮點,其原生引入的多 token 預測(MTP)機制,不僅為投機解碼提供高接受率的 MTP 模塊,還能提升模型整體性能,同時針對 MTP 的多步推理性能進行優化,通過保持訓練與推理一致性的多步訓練,進一步提高實際場景中投機解碼的接受率。

預訓練階段,Qwen3-Next 展現出卓越的效率。其訓練數據來自 Qwen3 的 36T token 預訓練語料中均勻採樣的 15T token 子集,GPU 時長不足 Qwen3-30-3B 的 80%,計算成本僅為 Qwen3-32B 的 9.3%,卻能實現更優性能。推理速度上,填充階段 4K 上下文長度時吞吐量接近 Qwen3-32B 的 7 倍,32K 以上時超 10 倍;
解碼階段 4K 上下文長度時吞吐量接近 Qwen3-32B 的 4 倍,32K 以上時仍保持超 10 倍的速度優勢。性能表現上,Qwen3-Next-80B-A3B-Base 僅激活 Qwen3-32B-Base 非嵌入參數的 1/10,卻在多數基準測試中性能更優,且顯著超過 Qwen3-30B-A3B。

後訓練階段的性能同樣亮眼。指令模型 Qwen3-Next-80B-A3B-Instruct 大幅超越 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,性能接近旗艦模型 Qwen3-235B-A22B-Instruct-2507;在 RULER 基準測試中,該模型在各長度下均優於注意力層更多的 Qwen3-30B-A3B-Instruct-2507,且在 256K 上下文內擊敗總層數更多的 Qwen3-235B-A22B-Instruct-2507,印證了混合架構在長上下文任務中的優勢。
推理模型 Qwen3-Next-80B-A3B-Thinking 性能超過 Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-Thinking 等更高成本模型,多個基準測試擊敗 Gemini-2.5-Flash-Thinking,關鍵指標接近 Qwen3-235B-A22B-Thinking-2507。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

