DeepSeek最新論文:如何讓大模型跑得更快?梁文鋒署名

DeepSeek最新論文:如何讓大模型跑得更快?梁文鋒署名

當行業在討論誰的模型更聰明時,DeepSeek仍然把目光投向更現實的問題:如何讓模型更快論文

6月27日,DeepSeek官方在Github低調更新了一篇最新論文,介紹其推理加速框架DSpark,試圖解決大語言模型在高併發場景下的推理效率瓶頸論文

從作者署名來看,這篇論文由DeepSeek與北京大學聯合釋出,DeepSeek創始人梁文鋒也位列作者名單論文。在論文中,團隊開源了DSpark模型權重,並同步釋出了面向推測解碼、由演算法驅動的訓練程式碼倉庫DeepSpec。

DeepSeek最新論文:如何讓大模型跑得更快?梁文鋒署名

此次論文仍是DeepSeek一貫的技術派風格,論文標題就較為晦澀——《DSpark:基於置信度排程的半自迴歸生成推測解碼》(《DSpark:Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》)論文

在論文中,DeepSeek首先解釋了需要解決的問題論文。大語言模型採用自迴歸方式生成文字:每一個新詞元(token)的生成,都需要基於全部前置詞元完成一次完整前向傳播,結果是輸出越長,等待越久。由此帶來GPU利用率低下、使用者等待時間過長的問題,這是大語言模型線上服務的核心效能瓶頸,在即時對話助手、多輪智慧體工作流等低時延敏感場景中尤為突出。

展開全文

目前的主流方案分為自迴歸草稿模型(Eagle3)、並行草稿模型(DFlash)兩條路線,二者各有缺陷,包括生成質量瓶頸和系統效率瓶頸等,且現有方案均缺乏負載自適應校驗機制論文

基於此,DeepSeek提出DSpark推測解碼框架,採用半自迴歸架構,透過兩套互補機制,解決草稿生成與校驗環節的權衡矛盾,將高吞吐並行生成與自適應負載感知校驗機制融為一體論文

根據論文,在數學推理、程式碼生成、日常閒聊三類任務的受控離線基準測試中,相較於自迴歸草稿模型與並行草稿模型,Dspark框架能夠大幅提升單輪平均可接受詞元長度論文

DeepSeek已經將DSpark部署到DeepSeek-V4線上服務系統中,並基於真實使用者流量評估其實際效能論文。結果顯示,相較於現有生產環境基線系統MTP-1,在相同吞吐量條件下,DSpark將使用者端生成速度提升了60%-85%。

此外,DeepSeek也將這一框架部署在其他模型上,以阿里旗下的Qwen3-4B、8B、14B三個模型為例,相較於自迴歸草稿模型,DSpark平均單輪可接受詞元長度分別提升了30.9%、26.7%、30%;相較於並行草稿模型,DSpark分別提升了16.3%、18.4%、18.3%論文

從技術角度來看,這篇論文的主要價值在於,透過演算法創新顯著提升了模型的推理生成速度論文。在當前大模型行業逐漸走向落地的背景下,誰能更便宜、更快速地輸出結果,也是一項重要的競爭力。此外,透過開源,DeepSeek也再次推動了社羣發展。

“AI Infra再次被DeepSeek加速了論文。”在社交平臺,有開發者評價道。也有使用者認為,DeepSeek最讓人佩服的點在於,模型迭代的同時,推理基礎設施也在同步更新,釋出V4時,連推理最佳化一起發,有論文也有程式碼,還驗證了跨模型通用性。

即便近期頻頻傳出融資訊息,未來可能需要走向商業化,但透過這一開源,DeepSeek似乎在證明自己仍會堅持開源初心論文

(本文來自第一財經)

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://mip.haizhilanhn.com/post/51656.html

🌐 /