在线观看国产中文字幕_欧美一区二区福利视频_av在线你懂的_污视频在线观看免费网站_亚洲精品99999_亚洲精品视频免费在线观看_亚洲精品国精品久久99热_一区二区三区国产在线观看_日本成人在线电影网

首頁 > 科技活動 > 每日活動 > DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

發布時間:2025-07-31 21:22:38

7 月 30 日,ACL(國際計算語言學年會)公布了 2025 年的獲獎論文。令人驚喜的是,這些論文里的中國作者比例超過 51%,排在第二的美國僅為 14%

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯合發表的論文不僅拿下 Best Paper 獎,相關成果也引發熱議。

現場講座中,該論文的第一作者袁境陽透露,這項技術可以把上下文長度擴展到 100 萬 tokens,并將應用在他們的下一個前沿模型中。據了解,袁境陽當時寫這篇論文時還只是 Deepseek 的實習生。

圖片

引入兩大核心技術創新

長上下文建模對于下一代語言模型至關重要,但標準注意力機制的高計算成本帶來了顯著的計算挑戰。隨著序列長度的增加,延遲瓶頸問題愈發凸顯。理論估算表明,在解碼 64k 長度的上下文時,采用 softmax 架構的注意力計算占總延遲的 70%–80%,這凸顯了對更高效注意力機制的迫切需求。

為解決這些局限性,有效的稀疏注意力機制在實際應用中必須應對兩項關鍵挑戰:與硬件適配的推理加速,要將理論上的計算量減少轉化為實際的速度提升,就需要在預填充和解碼階段都采用硬件友好型的算法設計,以緩解內存訪問和硬件調度方面的瓶頸;兼顧訓練的算法設計,通過可訓練算子實現端到端計算,在維持模型性能的同時降低訓練成本。

綜合考慮這兩個方面,現有方法仍存在明顯差距。該團隊認為,稀疏注意力為在保持模型能力的同時提高效率提供了一個很有前景的方向。

在獲獎論文中,他們提出了 NSA,這是一種可原生訓練的稀疏注意力(Natively trainable Sparse Attention)機制。它將算法創新與硬件對齊優化相結合,以實現高效的長上下文建模。據介紹,NSA 采用動態分層稀疏策略,結合粗粒度的 token 壓縮和細粒度的 token 選擇,以同時保留全局上下文感知和局部精度。

圖片

具體來說,NSA 引入了兩項核心創新。

通過算術強度平衡的算法設計實現了顯著的加速,并針對現代硬件進行了實現優化:優化塊式稀疏注意力,以提高張量核利用率和內存訪問,確保均衡的算術強度。

通過高效算法和反向算子實現穩定的端到端訓練,在不犧牲模型性能的情況下減少了預訓練計算量。

上下文處理速度狂飆,

準確率堪稱“完美”

在真實世界語言語料庫上進行綜合實驗評估后,NSA 由于稀疏性過濾掉更多噪聲,在基準測試中產生更好的準確率。據悉,該團隊在一個擁有 270 億參數的 Transformer 骨干網絡(其中激活參數為 30 億)上,使用 2600 億個 token 進行預訓練,并從通用語言評估、長上下文評估和思維鏈推理評估三個方面評估了 NSA 的性能,還在 A100 GPU 上將其內核速度與經過優化的 Triton 實現作了進一步比較。

實驗結果表明,NSA 的整體性能與全注意力模型相當甚至更優。在 9 項指標中的 7 項上,NSA 均超過了包括全注意力模型在內的所有基線。這表明,盡管 NSA 在較短序列上可能無法充分發揮其效率優勢,但它展現出了強勁的性能。

值得注意的是,NSA 在推理相關的基準測試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說明該團隊的預訓練有助于模型發展出專門的注意力機制。這種稀疏注意力預訓練機制迫使模型聚焦于最重要的信息,通過過濾無關注意力路徑中的噪聲,可能會提升性能。在各類評估中表現出的一致性,也驗證了 NSA 作為通用架構的穩健性。

在 64k 上下文的“大海撈針”測試中,NSA 在所有位置都實現了完美的檢索準確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實現了顯著的速度提升,且序列越長,提速比例越大。

圖片

據該團隊稱,這一性能正是得益于其分層稀疏注意力設計,該設計結合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計算成本識別相關的上下文塊,而對 token 選擇的標記級注意力則確保保留關鍵的細粒度信息。

同時,NSA 優于多種現有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對長上下文進行復雜推理的任務上表現出色,在多跳問答任務(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(LCC)上超出基線模型 0.069,在段落檢索任務(PassR-en)上優于其他方法 0.075。這些結果也驗證了 NSA 處理各種長上下文挑戰的能力,其原生預訓練的稀疏注意力在學習任務最優模式方面帶來了額外優勢。

為評估 NSA 與先進下游訓練范式的兼容性,該團隊研究了其通過后期訓練獲得思維鏈數學推理能力的潛力。鑒于強化學習在較小規模模型上的效果有限,其采用來自 DeepSeek-R1 的知識蒸餾,使用 100 億個 32k 長度的數學推理軌跡進行有監督微調(SFT)。這產生了兩個可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們在具有挑戰性的美國數學邀請賽(AIME 24)基準上對這兩個模型進行了評估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個問題生成 16 個回答并取平均分。并且,為驗證推理深度的影響,他們在兩種生成上下文序列下進行了實驗。結果顯示,NSA-R 在 8k 和 16k 序列長度下的表現均優于全注意力 - R。

圖片

這些結果驗證了原生稀疏注意力的兩項關鍵優勢:(1)預訓練的稀疏注意力模式能夠高效捕捉復雜數學推導所必需的長程邏輯依賴關系;(2)我們架構的硬件對齊設計保持了足夠的上下文密度,以支持推理深度的增加,同時避免災難性遺忘。在不同上下文長度下的持續優異表現證實,當稀疏注意力被原生整合到訓練流程中時,其在高級推理任務中具有切實可行性。

計算效率方面,該團隊將基于 Triton 實現的 NSA 注意力機制和全注意力機制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統進行了比較,以確保在相同后端下進行公平的速度對比。

結果表明,隨著上下文長度的增加,NSA 實現了越來越顯著的速度提升。在 64k 上下文長度下,前向速度提升高達 9.0 倍,反向速度提升高達 6.0 倍。值得注意的是,序列越長,速度優勢就越明顯。隨著解碼長度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長度下提速高達 11.6 倍,且這種內存訪問效率方面的優勢也會隨著序列變長而進一步擴大。

圖片

值得一提的是,這篇論文早在今年 2 月就對外公布,而相關研究成果至今還沒有出現在任何 DeepSeek 模型中。不過,根據論文一作袁境陽的說法,DeepSeek 下一代模型就將應用這項技術,這也讓許多網友對 DeepSeek V4 的發布更加期待,畢竟其與 DeepSeek R2 的發布計劃似乎也有很大關聯。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來自 Hugging Face CEO 發布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉庫鏈接,接著引發不少關于 R2 發布時間和技術細節的各類傳播。但對此,DeepSeek 官方一直未作出回應。

前不久,有外媒報道稱,DeepSeek R2 可能繼續推遲。遲遲未發布的內部原因是 DeepSeek 創始人梁文鋒對該模型當前的性能不滿意,工程師團隊仍在優化和打磨。與此同時,也有人這樣推測:R2 好歹要等 V4 出來再說,V3 可能已經到達極限了。

每日活動更多>>

持續熱銷!蔚來康凱:ES8月產能將沖刺2萬輛,蔚來這回賭對了? EZ60持續熱銷 長安馬自達再獲國內用戶喜愛 有格調有魅力的大佬座駕 試駕體驗寶馬M760Le xDrive 被國產車逼急后,合資車終于開竅了 黃勇與曹東杰:東風本田派出的“轉型雙保險”,勝算幾何? 斯巴魯官方不開發的WRX Crosstrek,熱情粉絲手搓一臺 別克至境世家廣州首秀,比世紀更全面的新能源旗艦MPV,50萬起? 9.28萬起售!零跑Lafa5:日常通勤/賽道撒歡兩不誤 “奕境”來了,解讀東風與華為的全新合作模式 比亞迪唐L攜新車色及智能OTA上市 補貼后21.48萬元起 “油電同強”,廣汽豐田的百萬輛更具含金量 何小鵬:X9超級增程切入混動市場,研發瞄準“一車雙能”戰略布局 77億的工廠16億賣 自主“撿漏”合資產能背后的車市劇變 國車霸榜,華系擴張,合資覺醒,技術平權,2025廣州車展9大觀察 燃油車和新能源平分天下已不可能!蔚來對2026年的6個判斷 對話何兆鵬:212越野車的“高地”之戰,從用戶共創到全球野望 買插混增程到底看什么?虧電油耗高點沒啥,這倆指標差才讓人焦慮 哈弗亮相廣州車展 傳遞年輕化理念 紅旗攜三大子品牌亮相廣州車展 HS6 PHEV啟動“四極”測試 油車熱效率“穩定落后”了100年!這兩年為啥集體升仙破了45%? 配置全面越級 極狐T1價值感拉滿亮相廣州車展 2026款長城炮9.98萬起上市,三炮齊發再戰皮卡市場 蘭博基尼Huracán STO:“內燃機的慶典”,最強量產Huracán 豐田史上最好油車!全新換代威蘭達,給你一個不買電車的理由 為什么沃爾沃XC70能成為第一款成功上市的主流豪華新能源車 廣汽昊鉑A800廣州車展全球內飾首發,全速沖刺高速L3商用 阿維塔全陣營亮相廣州車展,華為乾崑高度賦能,四激光雷達是亮點 不止于車,更是搭子!歐拉5廣州車展演繹與年輕人的雙向奔赴 從“謀生工具”到“創富伙伴”,五菱品牌舉辦第二屆致敬奮斗者大會 3000萬用戶信賴加持!一汽-大眾攜全新陣容引爆廣州車展
日本韩国欧美超级黄在线观看| 亚洲影院在线播放| 欧美最新另类人妖| 日韩av电影在线网| 久久精品无码一区二区日韩av| 欧美男生操女生| 探花视频在线观看| 久久大逼视频| 欧美亚洲另类色图| 啪啪亚洲精品| 欧美一区1区三区3区公司| 青草视频在线免费直播 | 日韩精品欧美激情| 天堂在线免费观看| 在线亚洲欧美专区二区| 男女视频免费网站| 一区二区三区四区亚洲| av网站免费大全| 欧美在线观看一二区| 日本亚洲一区二区三区| 亚洲免费观看| 毛片aaaaa| 亚洲成a人在线观看| 中文字幕第三页| 成人永久aaa| 中文字幕在线2019| 欧美亚洲自拍偷拍| 德国一级在线视频| www.美女亚洲精品| 四色永久网址| 亚洲精品日产aⅴ| 综合欧美亚洲| 五十路熟女丰满大屁股| 国产精品毛片视频| 无码人妻aⅴ一区二区三区玉蒲团| 欧美少妇性xxxx| 国产精品天天干| 国产精品久久福利| 国产精品玖玖玖| 亚洲经典在线看| 无码一区二区三区在线| 国产精品白丝在线| 中文字幕免费在线看线人动作大片| 亚洲精选91| 久久艹国产精品| 欧美羞羞视频| 在线不卡日本| 国产精品一级在线观看| 久久人91精品久久久久久不卡| 国产美女被草| 亚洲丝袜自拍清纯另类| 五月天激情国产综合婷婷婷| 国产日韩视频| 亚洲人成无码www久久久| 国产欧美高清视频在线| 日韩 欧美 高清| 亚洲欧洲一区| 亚洲影院在线播放| 亚洲h动漫在线| 精品国产九九九| 精品国产91乱高清在线观看| 中国女人真人一级毛片| 亚洲一区二区三区四区五区中文| 暧暧视频免费| 国产91成人在在线播放| 外国成人在线视频| 秋霞精品一区二区三区| 欧美午夜电影网| 伊人中文在线| 宅男噜噜噜66国产免费观看| 国产一区三区三区| 嫩草影院一二三| 国产高清精品软男同| 久久久久久毛片| 免费人成福利播放| 男女啪啪的视频| 精品一二三四区| 久草久草久草| 欧洲av一区二区嗯嗯嗯啊| 97人人在线视频| 欧美人妻一区二区| 久久久久久久影院| 中文精品视频| 天天插天天操| 深夜黄色小视频| 亚洲一区二区黄色| 欧美大片1688| 男操女视频网站| 中文字幕精品网| 欧美综合自拍| 男女视频免费网站| 成人免费观看网站| 2020国产精品自拍| 污视频网站在线看| 久久精品99国产| 精品少妇一区二区三区日产乱码| xxxcom在线观看| 九九热久久免费视频| 欧美精品情趣视频| 国产一区二区三区蝌蚪| 国产小视频在线| 91性高潮久久久久久久| 中文字幕精品国产| 欧美日韩国产高清电影| 人人澡人人透人人爽| 欧美激情第一区| 久久亚洲国产精品| 麻豆极品一区二区三区| 国产高清视频在线播放| 在线免费观看毛片| 国产精品久久7| 91成人免费电影| 伊人青青综合网| 桃乃木かなav在线播放| 精品人妻无码中文字幕18禁| 亚洲第五色综合网| 三级不卡在线观看| www久久日com| 99热这里只有精品在线观看| 国产又粗又硬又长| 亚洲天天在线日亚洲洲精| 国产麻豆精品视频| www.视频在线.com| www.com在线观看| 亚洲第一天堂久久| 成人精品在线观看| 亚洲色欲色欲www在线观看| 日韩a级大片| 天堂av电影在线观看| 国产女人18毛片水18精| 日本中文字幕精品—区二区| 亚洲级视频在线观看免费1级| 国产精品综合久久| 欧美成年网站| 欧美高清电影在线| 波多野结衣高清视频| 亚洲国产一区在线| 久久久成人精品视频| 国产999精品久久久久久绿帽| 国产精品欧美一区二区三区不卡| 成年人网站在线免费观看| 国产精品无码午夜福利| 国产在线播放不卡| 一区三区二区视频| 不卡电影一区二区三区| 亚洲裸色大胆大尺寸艺术写真| 91最新在线| 欧美日韩综合高清一区二区| 一区二区黄色片| 日本一区二区三区视频在线播放| 亚洲男人天堂视频| 黑人狂躁日本妞一区二区三区| 欧洲福利电影| 日本蜜桃在线观看| 最近中文字幕mv免费高清视频8 | 国产精品人人妻人人爽人人牛| 亚洲精品资源在线| 亚洲国产视频直播| 亚洲国产1区| 香蕉久久精品| 巨骚激情综合| 美女免费黄视频网站| 欧美精品777| 国产丝袜美腿一区二区三区| 女优一区二区三区| 欧美日韩女优| 日本aⅴ中文| 91视频导航| 日本一线产区和二线产区| 国产成人精品亚洲| 少妇一级淫免费观看| 欧日韩一区二区三区| 国产一区深夜福利| 精品视频久久久久久| 欧美精品精品一区| 日本黄色一区二区| 99re这里只有精品视频首页| 国产亚洲欧美日韩在线观看一区二区 | 国产精品视频你懂的| 国产精品成人一区二区网站软件| 青草伊人久久| 国产一区 二区| 国产精品免费播放| 国产69久久| www.91av| 嫩模私拍啪啪| 在线sese| av女片在线| 偷拍国模大尺度视频在线播放| 波多野结衣二区三区| 国产精品久久久久久免费 | 久草在线资源站资源站| 超碰在线人人| 国产在线观看黄| 337p日本| 国产爆初菊在线观看免费视频网站| 色网站在线看| 黄色免费在线观看| 成人日韩av| 欧美一级大片|