3377体育

颁布于2026-06-04 04:59:06 来自齐全经验 ·

关注

美军动用十余艘舰艇、数十架飞机、上万士兵关闭伊朗港口

人民日报钟声：滑向“打劫性霸权”，美国正“以倒退的方式步入未来”

一个 8B 参数的大模型，通常必要约 16GB 显存。参数越多，越吃显存，这就是为什么，内存价值一天比一天高。此刻，有一种步骤，能够省下 6 倍显存，却险些不损耗模型机能。从前两年，萦绕这个看似极端的思路，一条全球性的技术较量在成型。而就在这条赛路上，一个齐全基于国产算力的规划，刚刚给出了自己的第一个回覆。模型被压到了不到 3B，同时，能力却能够保留 97%，甚至更进一步，若是结合 MoE 架构，未来能够直接在一部 8GB 内存的手机，运行 600 亿参数的大模型。听上去匪夷所思，怎么做到的？三个值，能跑大模型吗传统大模型用极度精确的数字存储，意味着每个权沉能够取几万种分歧的数值，精度很高，但也很占内存。三值量化是一个极端的反向操作：直接把可选的数值从几万种砍到三种。技术上，这被称为 1.58-bit，由于编码三个值刚好必要约 1.58 个二进造位。这个压缩有多极端？打个譬喻：若是传统大模型的权沉是一幅全彩照片，三值量化就是把它压成只有黑、白、灰三色的极简图形。直觉上你会感触这必然损失惨沉。但从前两年的钻研反复证明，模型权沉里存在大量冗余信息。三个值，若是分配切当，足以承载绝大部门的模型能力。这不是一个新概想。2024 年，微软钻研院颁布了 BitNet b1.58，第一次系统论证了三值大模型能够逼近全精度模型的机能。微软随后在去年进一步颁布了 BitNet b1.58 2B4T，一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月，美国公司 PrismML 颁布了 Ternary Bonsai 系列，宣称是首批贸易可用的 1.58-bit 模型。▲上：Llama FP16 架构，下：微软钻研院开发的 BitNet 架构学术界也同样在跟进：Tequila 提出相识决三值量化钟赘死权沉陷阱」的新步骤，TernaryLM 索求了从零起头的原生三值训练。一条全球赛路在成型。但有一个关键问题始终没有被回覆：三值大模型训练，能在国产算力上跑通吗？昇腾上的第一次这一次，在华为鲲鹏昇腾开发者大会（KADC 2026）上，面壁智能给出了答案。BitCPM-CANN 是面壁智能结合清华大学、OpenBMB 开源社区颁布的三值大模型系列。它的意思不仅在于「又发了一个三值模型」。在全球赛路上，BitCPM-CANN 做到了三个此前没有人做到的事件。第一次，在华为昇腾上端到端实现三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上实现。国产芯片堡垒第一次占有了自己的三值训练能力。第一次，一次性把规模推到 8B。此前昇腾上的低比特训练停顿在较幼规模的验证阶段。BitCPM-CANN 直接颁布了 0.5B、1B、3B、8B 四个档位，覆盖从手机到 PC 的齐全端侧场景。第一次，实现了与全精度模型的齐全对照评测。11 项工作、四大类评测（学问、阅读理解、学科知识、数学推理），1B 到 8B 档位的能力保留率在 95.7% 到 97.2% 之间。97.2% 的能力保留率意味着什么？在 ARC、CMMLU、GSM8K 等主流评测中，BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距，已经幼于很多全精度模型之间的差距。其中，3B 档位的保留率最高，达到 97.2%。并且，这不只是论文里的数字，是能真正能够「拿来就用」的成就。BitCPM-CANN 的全数尺寸版本已经开源，0.5B 到 8B 四个档位都能够直接下载复现。对于熟悉面壁智能 MiniCPM 系列的开发者来说，BitCPM-CANN 就是 MiniCPM 家族的三值版本，还是一套生态。在统一个 GitHub 社区，家族前辈堆集了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」，此刻成长出来了新的方向。 6 倍显存，从服务器得手机都「吃到盈利」相比 BF16 全精度模型，BitCPM-CANN 节俭约 6 倍显存，这个数字开发者最能直接感知：一个 8B 参数的全精度模型必要约 16GB 显存，BitCPM-CANN 三值版本不到 3GB，能够流畅运行在一部手机上，共同 MoE 与激活领域约束，60B 规模的模型有望装入终端设备。硬件端也已经筹备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理，BitCPM-CANN 提供的刚好是能够直接喂进去的低比特权沉。芯片厂商等供给，模型厂商等芯片，此刻双方同时到位了，怎么不是一种「双向奔赴」。手机厂商对端侧大模型的投入一向在加快。上周 Google I/O 上，Gemini Intelligence 全面收受 Android 设备，从手机得腕表到车机；苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的沉大升级。两大手机操作系统同时发力，共同指向一个现实：手机端侧要跑越来越强的 AI，内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型，谁就把握了下一轮竞争的自动权。现实上，若是结合整个 AI 产业在经历的阵痛，价值又会更上一层楼：4 月时，高盛把整年 DRAM 价值涨幅预期上调到 280%，美银预估全球 HBM 市场将达到 546 亿美元。AI 基础设施最紧缺的资源就是内存，6 倍显存盈利意味着不增长物理内存，就能把模型能力提升数倍。在内存持续涨价的情况下，这不是优化，是刚需。三值量化不是「用精度换内存」的妥协。当 97% 的能力被保留下来时，注明传统 16 位模型里大量的精度可能是冗余的。三个值，足以承载一个大模型的绝大部门知识。低比特不再是工程上的节俭伎俩，而是一种新的权沉知识承载方式。为什么是面壁智能，为什么是此刻当 AI 从云端走向终端，端侧模型在成为幼我智能设备的主题能力。手机、电脑、车机，每一个切近用户的终端都在等一个足够幼、足够强、足够省内存的模型。这条赛路的输赢手，不会是那些只会把模型做大的团队，而是能把模型做幼、做轻、做到真正能跑起来的玩家。为什么是面壁智能，能在端侧大模型这条路上，一向走在前沿？这个问题的答案不在 BitCPM-CANN 自身，而在这家公司从前几年，一向在做的一件看起来有些「不合群」的事。面壁智能从成立之初就押注效能，在国内大无数团队追赶更大模型的时辰，他们花了大量功夫做底层训练框架 BM-Train，解决「怎么用更少的资源，训出足够好的模型」，这套基础设施堆集是后来所有的起点。在 1.58-bit 方向上，面壁智能的判断早于行业共识。许无数团队还在犹豫极低比特是否可行时，面壁智能就选定了这条路线，先在 GPU 上跑通了齐全的训练流程和步骤论，再整体迁徙到昇腾平台上Ｄ芄凰，BitCPM-CANN 不是把一个模型移植到了国产芯片上，而是把一整套经过验证的训练步骤、效能路线和工程系统，搬进了国产算力的底座。在模型层面，面壁智能的端侧模型 MiniCPM 系列在 GitHub 上堆集了超过 3 万颗星，Hugging Face 开源总下载量超过 3000 万，是端侧大模型领域最受欢迎的中国开源模型家族。BitCPM-CANN 正是 MiniCPM 家族向三值量化的延长，远不止一个展示性的「PPT 模型」，是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施，后续所有想在昇腾上做低比特训练的团队，都能够在统一套底座上起步。值得一提的是，BitCPM-CANN 还在华为昇腾上实现了端到端的三值训练，训练效能达到通例基线的 95%。这证了然这套步骤论不依赖特定硬件平台，国产算力同样能够跑通。不是蹬撞件变得足够壮大来适应模型，要让模型变得足够聪明来适应硬件。从训练端的华为昇腾，到推理端的终端芯片，再到开源的模型和训练剧本，这是一条齐全的国产关环，框架国产，芯片国产，模型国产，步骤论自主。面壁智能的下一步已经明确：进一步提升模型的能力保留率，用 MoE 架构扩大更大规模模型的容量，把 6 倍显存盈利齐全开释到部署中。更长远的指标，是覆盖从预训练到对齐的全流程低比特化。从底层训练框架 BM-Train，到端侧模型家族 MiniCPM，再到 BitCPM-CANN，面壁智能用几年功夫搭建了一套齐全的端侧大模型技术系统。在全球赛路上，面对微软、PrismML，面壁智能展示出了怪异的分歧优势之处在于：从框架、步骤论、模型到芯片适配，构建了一条齐全的端侧技术路线。当 AI 竞争从「谁的模型更大」转向「谁能让智能真正跑在每一台设备上」时，把握端侧技术话语权的人，才站在了最有利的地位。

热点排行

【网站地图】