美军动用十余艘舰艇、数十架飞机、上万士兵关闭伊朗港口
一个 8B 参数的大模型,通常必要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价值一天比一天高。此刻,有一种步骤,能够省下 6 倍显存,却险些不损耗模型机能。从前两年,萦绕这个看似极端的思路,一条全球性的技术较量在成型。而就在这条赛路上,一个齐全基于国产算力的规划,刚刚给出了自己的第一个回覆。模型被压到了不到 3B,同时,能力却能够保留 97%,甚至更进一步,若是结合 MoE 架构,未来能够直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。听上去匪夷所思,怎么做到的? 三个值,能跑大模型吗传统大模型用极度精确的数字存储,意味着每个权沉能够取几万种分歧的数值,精度很高,但也很占内存。三值量化是一个极端的反向操作:直接把可选的数值从几万种砍到三种。技术上,这被称为 1.58-bit,由于编码三个值刚好必要约 1.58 个二进造位。这个压缩有多极端?打个譬喻:若是传统大模型的权沉是一幅全彩照片,三值量化就是把它压成只有黑、白、灰三色的极简图形。直觉上你会感触这必然损失惨沉。但从前两年的钻研反复证明,模型权沉里存在大量冗余信息。三个值,若是分配切当,足以承载绝大部门的模型能力。这不是一个新概想。2024 年,微软钻研院颁布了 BitNet b1.58,第一次系统论证了三值大模型能够逼近全精度模型的机能。微软随后在去年进一步颁布了 BitNet b1.58 2B4T,一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月,美国公司 PrismML 颁布了 Ternary Bonsai 系列,宣称是首批贸易可用的 1.58-bit 模型。▲上:Llama FP16 架构,下:微软钻研院开发的 BitNet 架构学术界也同样在跟进:Tequila 提出相识决三值量化钟赘死权沉陷阱」的新步骤,TernaryLM 索求了从零起头的原生三值训练。一条全球赛路在成型。但有一个关键问题始终没有被回覆:三值大模型训练,能在国产算力上跑通吗? 昇腾上的第一次这一次,在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了答案。BitCPM-CANN 是面壁智能结合清华大学、OpenBMB 开源社区颁布的三值大模型系列。它的意思不仅在于「又发了一个三值模型」。在全球赛路上,BitCPM-CANN 做到了三个此前没有人做到的事件。第一次,在华为昇腾上端到端实现三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上实现。国产芯片堡垒第一次占有了自己的三值训练能力。第一次,一次性把规模推到 8B。此前昇腾上的低比特训练停顿在较幼规模的验证阶段。BitCPM-CANN 直接颁布了 0.5B、1B、3B、8B 四个档位,覆盖从手机到 PC 的齐全端侧场景。第一次,实现了与全精度模型的齐全对照评测。11 项工作、四大类评测(学问、阅读理解、学科知识、数学推理),1B 到 8B 档位的能力保留率在 95.7% 到 97.2% 之间。97.2% 的能力保留率意味着什么?在 ARC、CMMLU、GSM8K 等主流评测中,BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距,已经幼于很多全精度模型之间的差距。其中,3B 档位的保留率最高,达到 97.2%。并且,这不只是论文里的数字,是能真正能够「拿来就用」的成就。BitCPM-CANN 的全数尺寸版本已经开源,0.5B 到 8B 四个档位都能够直接下载复现。对于熟悉面壁智能 MiniCPM 系列的开发者来说,BitCPM-CANN 就是 MiniCPM 家族的三值版本,还是一套生态。在统一个 GitHub 社区,家族前辈堆集了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」,此刻成长出来了新的方向。 6 倍显存,从服务器得手机都「吃到盈利」相比 BF16 全精度模型,BitCPM-CANN 节俭约 6 倍显存,这个数字开发者最能直接感知:一个 8B 参数的全精度模型必要约 16GB 显存,BitCPM-CANN 三值版本不到 3GB,能够流畅运行在一部手机上,共同 MoE 与激活领域约束,60B 规模的模型有望装入终端设备。硬件端也已经筹备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理,BitCPM-CANN 提供的刚好是能够直接喂进去的低比特权沉。芯片厂商等供给,模型厂商等芯片,此刻双方同时到位了,怎么不是一种「双向奔赴」。手机厂商对端侧大模型的投入一向在加快。上周 Google I/O 上,Gemini Intelligence 全面收受 Android 设备,从手机得腕表到车机;苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的沉大升级。两大手机操作系统同时发力,共同指向一个现实:手机端侧要跑越来越强的 AI,内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型,谁就把握了下一轮竞争的自动权。现实上,若是结合整个 AI 产业在经历的阵痛,价值又会更上一层楼:4 月时,高盛把整年 DRAM 价值涨幅预期上调到 280%,美银预估全球 HBM 市场将达到 546 亿美元。AI 基础设施最紧缺的资源就是内存,6 倍显存盈利意味着不增长物理内存,就能把模型能力提升数倍。在内存持续涨价的情况下,这不是优化,是刚需。三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时,注明传统 16 位模型里大量的精度可能是冗余的。三个值,足以承载一个大模型的绝大部门知识。低比特不再是工程上的节俭伎俩,而是一种新的权沉知识承载方式。 为什么是面壁智能,为什么是此刻当 AI 从云端走向终端,端侧模型在成为幼我智能设备的主题能力。手机、电脑、车机,每一个切近用户的终端都在等一个足够幼、足够强、足够省内存的模型。这条赛路的输赢手,不会是那些只会把模型做大的团队,而是能把模型做幼、做轻、做到真正能跑起来的玩家。为什么是面壁智能,能在端侧大模型这条路上,一向走在前沿?这个问题的答案不在 BitCPM-CANN 自身,而在这家公司从前几年,一向在做的一件看起来有些「不合群」的事。面壁智能从成立之初就押注效能,在国内大无数团队追赶更大模型的时辰,他们花了大量功夫做底层训练框架 BM-Train,解决「怎么用更少的资源,训出足够好的模型」,这套基础设施堆集是后来所有的起点。在 1.58-bit 方向上,面壁智能的判断早于行业共识。许无数团队还在犹豫极低比特是否可行时,面壁智能就选定了这条路线,先在 GPU 上跑通了齐全的训练流程和步骤论,再整体迁徙到昇腾平台上D芄凰,BitCPM-CANN 不是把一个模型移植到了国产芯片上,而是把一整套经过验证的训练步骤、效能路线和工程系统,搬进了国产算力的底座。在模型层面,面壁智能的端侧模型 MiniCPM 系列在 GitHub 上堆集了超过 3 万颗星,Hugging Face 开源总下载量超过 3000 万,是端侧大模型领域最受欢迎的中国开源模型家族。BitCPM-CANN 正是 MiniCPM 家族向三值量化的延长,远不止一个展示性的「PPT 模型」,是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施,后续所有想在昇腾上做低比特训练的团队,都能够在统一套底座上起步。值得一提的是,BitCPM-CANN 还在华为昇腾上实现了端到端的三值训练,训练效能达到通例基线的 95%。这证了然这套步骤论不依赖特定硬件平台,国产算力同样能够跑通。不是蹬撞件变得足够壮大来适应模型,要让模型变得足够聪明来适应硬件。从训练端的华为昇腾,到推理端的终端芯片,再到开源的模型和训练剧本,这是一条齐全的国产关环,框架国产,芯片国产,模型国产,步骤论自主。面壁智能的下一步已经明确:进一步提升模型的能力保留率,用 MoE 架构扩大更大规模模型的容量,把 6 倍显存盈利齐全开释到部署中。更长远的指标,是覆盖从预训练到对齐的全流程低比特化。从底层训练框架 BM-Train,到端侧模型家族 MiniCPM,再到 BitCPM-CANN,面壁智能用几年功夫搭建了一套齐全的端侧大模型技术系统。在全球赛路上,面对微软、PrismML,面壁智能展示出了怪异的分歧优势之处在于:从框架、步骤论、模型到芯片适配,构建了一条齐全的端侧技术路线。当 AI 竞争从「谁的模型更大」转向「谁能让智能真正跑在每一台设备上」时,把握端侧技术话语权的人,才站在了最有利的地位。