7月25日,WAIC 2025前夕,后摩智能正式發布全新端邊大模型 AI 芯片——后摩漫界?M50,同步推出力擎?系列M.2卡、力謀?系列加速卡及計算盒子等硬件組合,形成覆蓋移動終端與邊緣場景的完整產品矩陣。M50芯片實現了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6 GB/s 的超高帶寬,典型功耗僅10W,相當于手機快充的功率,就能讓PC、智能語音設備、機器人等智能移動終端高效運行1.5B 到 70B 參數的本地大模型,真正實現了“高算力、低功耗、即插即用”。
當前大模型行業正經歷深刻變革,ChatGPT 僅用 2年便達成 Google 11年積累的年搜索量規模,超級應用用戶破億的時間從手機時代的16年壓縮至 ChatGPT 的2周。行業已進入“推理密度”與“能耗密度”雙重敏感階段,未來5年推理成本將占大模型全生命周期80%以上。在端邊大模型部署“最后一公里”的競爭,或將成為決定未來產業格局的重要拐點。
高算力、高帶寬、低功耗,這3項看似互斥的指標,正是存算一體技術大顯身手的主場,后摩智能從2020年就開始深耕這一領域。存算一體通過把計算和存儲單元集成在一起,讓數據就近處理,從根本上解決了傳統芯片“數據傳輸慢、功耗高”的問題。M50芯片作為這項技術的集大成之作,其第二代SRAM-CIM雙端口存算架構能讓權重加載和矩陣計算同時進行,支持多精度混合運算,可兼顧模型部署的各項需求;后摩智能自主研發的第二代 IPU 架構——天璇,通過壓縮自適應計算周期實現彈性計算(Elastic Computing),最高可提供160%的加速效果;通過內建的高速多芯互聯技術,可實現算力與帶寬擴展;同時適配后摩智能新一代編譯器后摩大道?,可根據芯片架構自動選擇最優算子,無需開發者手動嘗試;支持浮點運算,無需量化參數和精度調優。和傳統架構相比,M50的能效提升5-10倍,完美適配了端邊設備“算得快又吃得少”的需求。
除了 M50芯片,后摩智能此次發布的產品矩陣形成了覆蓋端側到邊緣的多元算力方案。力擎??LQ50 M.2卡以口香糖大小的標準 M.2 規格,為 AI PC、AI Stick、陪伴機器人等移動終端提供 “即插即用”的端側 AI 能力,支持 7B/8B 模型推理超 25tokens/s;力擎??LQ50 Duo M.2卡集成雙 M50芯片,以 320TOPS 算力突破 14B/32B 大模型端側部署瓶頸;力謀?LM5050加速卡與力謀?LM5070加速卡分別集成2顆、4顆 M50芯片,為單機及超大模型推理提供高密度算力,最高達 640TOPS;BX50計算盒子則以緊湊機適配邊緣場景,支持32路視頻分析與本地大模型運行。
這些產品可廣泛應用于消費終端、智能辦公、智能工業等多元領域,且均能在離線狀態下實現全流程本地處理,從源頭杜絕數據聯網傳輸風險。例如在消費終端,賦能筆記本、平板電腦、學習機等設備本地大模型推理能力,無需聯網即可完成智能交互、內容生成等任務,用戶隱私數據全程閉環留存;智能辦公場景中,智能會議系統在斷網環境下仍能實現多語種翻譯、紀要生成,會議內容不觸云、不泄露;智能工業領域,產線質檢與車路云協同通過本地算力完成實時分析決策,生產數據與運營信息在設備端閉環處理,避免云端傳輸隱患。后摩智能通過存算一體技術與大模型的深度融合,推動 AI 大模型在端邊側實現 “離線可用、數據留痕不外露”,構建起 “低功耗、高安全、好體驗” 的端邊智能新生態。
面向未來,后摩智能已啟動下一代 DRAM-PIM 技術研發,通過將計算單元直接嵌入 DRAM 陣列,使計算與存儲的協同更加緊密高效。該技術將突破 1TB/s 片內帶寬,能效較現有水平再提升三倍,推動百億參數大模型在終端設備實現普及,讓更強大的 AI 算力能夠融入 PC、平板等日常設備。
這樣的技術方向和發展愿景也得到了重量級產業方和國有資本的認可,近兩年以來,后摩智能已經獲得了中國移動產業鏈發展基金、北京市人工智能基金,北京市亦莊產業升級基金、中國國有企業混改基金等多家機構的投資,為在端邊大模型芯片領域的持續創新提供了有力支撐。后摩智能CEO吳強博士表示:“M50的發布只是一個開始,我們的目標是讓大模型算力像電力一樣隨處可得、隨取隨用,真正走進每一條產線、每一臺設備、每一個人的指尖?!?/p>
(企業供圖)
友情鏈接: 政府 高新園區合作媒體
Copyright 1999-2025 中國高新網chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業務經營許可證060344號主辦單位:《中國高新技術產業導報》社有限責任公司