MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

MiniMax啟動科創板IPO輔導後,新一代旗艦模型M3也正式登場論文

剛剛釋出的M3, 把前沿Coding能力、1M超長上下文、原生多模態這三條科技樹,同時點滿論文

MiniMax稱,M3是目前的開源模型當中,唯一能同時做到這三點的論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

它在SWE-Bench Pro上超過了GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7論文

而在面向自主Agent的端到端評測Claw-Eval上,M3拿到了最高分論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

為了證明三種能力確實同時線上,MiniMax團隊把一篇ICLR 2025獲獎論文丟給M3獨立復現——

展開全文

論文又長又硬、圖文並茂論文,要看懂裡面的曲線圖、資料、公式得靠多模態;

論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文

長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文

論文又長又硬、圖文並茂論文,要看懂裡面的曲線圖、資料、公式得靠多模態;

論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文

長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文

結果M3獨立跑了接近12小時,最終成功把論文的核心實驗全部跑通論文

現在,MiniMax M3已經可以在MiniMax Code、Token Plan和API服務中體驗到論文

長上下文、程式設計、多模態同時線上

和M系列以往的路徑相同,M3同時點滿長上下文、Coding和多模態這三條科技樹,依然是在向Coding和Agent方向重點發力論文

MiniMax用幾道真題測了它的實際表現論文

FP8矩陣乘(GEMM)最佳化是大模型推理裡最佳化難度最高的環節之一,資深工程團隊通常要集中投入1-2周才能在NVIDIA Hopper架構上寫出一個生產級kernel論文

MiniMax把這道題丟給M3,起點只有一份任務描述、一個benchmark指令碼、一個跑不起來的Triton骨架,沒有任何參考實現可以抄論文

隨後約24小時,M3自己走完了從baseline到生產級最佳化的全部路徑,其間完成了147次benchmark提交、1959次工具呼叫論文

並且,效能瓶頸診斷、CUDA Graph整合、persistent kernel重寫等一系列步驟中,M3在每一步都拿benchmark反饋來驗證自己論文

最終經過6輪標誌性最佳化,Hopper FP8硬體峰值利用率從首版7.6%幹到了71.3%,實現9.4倍加速論文

執行過程本身也值得關注論文

其餘模型大多在前30次提交內就不再進展、主動退出了,M3的最優解出現在第145次提交,在那之前它經歷了多個效能平臺期,但一直在繼續嘗試不同方向論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

除了最佳化運算元,M3還能獨立復現論文論文

MiniMax把一篇ICLR 2025 Outstanding Paper Award獲獎論文扔給它,這篇論文研究的是大模型微調過程中的學習動力學論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

論文字身又長又硬、圖文並茂,模型需要看懂裡面的曲線圖、資料、公式然後編寫程式碼並執行論文

這個任務重,M3自主執行接近12小時,產出18次commit與23張實驗圖表論文

它不僅跑通了核心實驗,成功吻合了SFT階段的預測機率變化趨勢,還清晰觀測到DPO實驗重點討論的squeezing效應,並順利驗證了原論文提出的Extend緩解方法論文

中途遇到跑不通的實驗,它會自己進行診斷,碰到結果對不上的地方就自己調整,整個過程始終沒有人工介入論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

除此之外,M3還能給其他模型當教練論文

MiniMax在PostTrainBench上讓它接手四個只完成預訓練的Base模型,任務是在12小時內自主完成資料合成、訓練、評測、迭代的全部流程,最終讓這些模型在數學推理、工具呼叫、科學知識推理、程式碼生成等任務上具備基本能力論文

這道題沒有清晰的反饋結構,也沒有標準答案,M3需要自己判斷合成什麼資料、選什麼訓練策略,並根據每輪評測結果,決定下一步怎麼調論文

它先分析每個Base模型在各任務上的短板,再決定為每個方向合成哪些資料,跑完訓練拿到評測結果之後,再自己判斷哪個任務還差得遠、哪個方向的資料質量不夠、下一輪應該往哪裡加力論文

如果發現某個任務的資料覆蓋不足,它會重新設計合成方案;某輪訓練效果不達預期,它會調整策略再跑一輪論文

不同輪次的評測結果出來之後,它會自己對比差異、總結規律、決定下一步論文

整個12小時它都在自己拿主意,沒有人告訴它該怎麼做論文

它最終得分0.37,略低於Opus 4.7(0.42)和GPT-5.5(0.39),但明顯領先其餘模型論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

引入全新注意力機制

要解決更復雜的Agent任務,context scaling是繞不開的挑戰論文

MiniMax為此從最底層的注意力機制入手,自己做了一套新的稀疏注意力架構,叫 MSA(MiniMax Sparse Attention)論文

全注意力機制有個先天問題,它的計算複雜度隨上下文長度平方級增長論文。上下文越長,計算量爆炸得越快。

業內通常靠增加初篩階段來緩解這個問題,但精度和效率很難兼顧論文

MSA的做法分兩步論文

第一步是 Index Attention論文,用輕量的索引query對KV塊做Block Max Pool,選出Top-k的高相關塊;

第二步, 再對選出來的塊做完整的Sparse Attention計算論文

第一步是 Index Attention論文,用輕量的索引query對KV塊做Block Max Pool,選出Top-k的高相關塊;

第二步, 再對選出來的塊做完整的Sparse Attention計算論文

跟DSA、MoBA等方案相比,MSA可以更精確地為KV分塊,實現更高的有效上下文覆蓋論文

運算元層面,MiniMax也做了專門最佳化,採用以KV塊為外層聚合命中query的KV outer gather Q方式,每塊只讀一次、訪存連續論文

MiniMax新旗艦M3釋出!自己幹了12小時復現獲獎論文,三條科技樹同時點滿

在M3的head配比下,這種模式的計算訪存比顯著優於通行方法,比開源的Flash-Sparse-Attention、FlashMoBA快4倍以上論文

效果上,在1M上下文下, M3每token的計算量只有上代模型的1/20,prefilling階段提速超過9倍,decoding階段提速超過15倍,且絕大部分能力與全注意力持平論文

多模態方面,M3 從預訓練第一步就做圖文混合訓練,不同模態資料的語義空間從一開始就在同一套框架下融合論文

MiniMax做了大量實驗,發現文字和影像在序列中交替排列的interleaved data,對模型效能的提升比通常認為的更關鍵論文

為了大規模獲取這類資料,MiniMax重構了整套資料管線,訓練資料Token規模因此可以提升到100萬億量級論文

Coding能力這邊,MiniMax認為今天模型的Coding水平,越來越取決於能否用真實世界的使用者邏輯來訓練論文

大多數程式碼Agent的訓練和評測建立在單輪任務的假設上,但真實場景裡使用者往往在同一個session裡持續協作論文

為了縮小這個差距,MiniMax構建了一套互動式使用者模擬器框架,模擬真實開發者在協作過程中的行為模式,讓模型在訓練階段就接觸到更接近生產環境的互動場景論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://mip.haizhilanhn.com/post/44035.html

🌐 /