3377体育

颁布于2026-06-04 13:52:39 来自专家实用 ·

关注

300亿百货龙头1元底价甩卖子公司，一季度净利润骤降4008%

维峰电子：拟1元受让关联方所持维泰精密36.25%股权后者沉点布局高速板端衔接器

文丨镜像工作室，作者 | 彭杰克，编纂丨程述白" 若是顶尖的 AI 模型被优化在华为芯片上运行，对美国而言将是‘可怕的后果’。"这是英伟达 CEO 黄仁勋近期在一档播客节目中发出的忠告。让他发出忠告的对象，是即将颁布新模型的中国 AI 公司 DeepSeek。让黄仁勋警惕的，并不是某个具体的模型能力，而是另一件事——综合多家权威媒体报路：DeepSeek-V4 模型在设计之初便优先萦绕华为昇腾 AI 系统进行适配。一旦成功绕过英伟达的 CUDA 系统，DeepSeek 将不再只是英伟达生态里的一个 " 租户 "，被迫接受高昂的 " 算力租金 " 和随时可能断供的供给链风险，而是成为能自主界说算力效能、把握技术栈主导权的 " 规定造订者 "；迫恃恼庵钟怯粼诮裉欤4 月 24 日）成为了半个现实。僻静近五个月后，DeepSeek 带着 V4 沉新回到市场中心，在其定价注明中，有一行险些被忽略的灰色幼字：受限于高端算力，目前 Pro 的服务吞吐极度有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价值会大幅下调。这一细节至少注明，国产算力已经在 DeepSeek 的整体系统中占据了沉要地位，甚至在关键蹊径上起头影响其成本结构与定价逻辑。这并不料味着寂仔格局被突破。从技术汇报来看，DeepSeek 当前最成熟、最不变的实现依然成立在 CUDA 系统之上，主题算子与工程优化仍旧集中在英伟达生态内。这也意味着，在短期内，CUDA 依然是行业默认的 " 最优蹊径 "。只是，DeepSeek-V4 也证了然，CUDA 构建的城墙，已经不再坚不成摧。DeepSeek-V4 都做了什么DeepSeek-V4 现实上就干了一件事：用极致的工程效能，把 " 顶级大模型 " 的门槛打了下来。它没有单纯堆砌参数，而是通过一套组合拳，让高机能 AI 变得既好用又便宜。具体来看，首先是参数规模：旗舰版本 DeepSeek-v4-pro 总参数达 1.6 万亿，但每次推理仅激活 490 亿参数；轻量版本 DeepSeek-v4-flash 则节造在 2840 亿参数、130 亿激活规模。统一时期国内主流大模型参数对比。造图：镜相工作室两个版本背后的逻辑一致：通过 MoE（混合专家）架构，在不显著增长现实算力职守的前提下扩大模型容量。通过工程优化，让模型在推理时只挪用最有关的部门，从而实现低成本下的顶级机能。这种结构换算力的思路在 V2 时期已初见功效，在 V4 中被进一步放大。在高低文能力上，DeepSeek 直接将 100 万 tokens 作为 " 所有官方服务的标配 "。相当于你用它的 App、网站或 API，默认就能一次性上传一整本《红楼梦》、整个项主张代码库或一份齐全的年度汇报，让 AI 重新到尾读完并处置。在行业中，持久存在高低文越长，成本越高的矛盾。传统的 AI 模型为了理解长文本，它必要记住每个字，并且推算每个字和全文中其他所有字的关联。相当于为了一句话，就必要翻阅并沉读整本字典，效能极低，成本也高。而 V4 没有硬扛这个数学难题，而是用 DSA 稀少把稳力（DeepSeek Sparse Attention）的新机造，通过 " 打包提要 " 和 " 只抓沉点 "，大幅降低了处置和影象长文的推算量与成本。百万字的长文在 AI 的 " 工作内存 "（显存）里，就造成了几百个高度浓缩的重点，体积和职守骤减。若是这一机造可能在真实场景中不变运行，那么长高低文能力将从高端模型的附加项，逐步转向利用层的基础配置。再来看能力层面的变动：Agent 能力方面，V4-Pro 已进入开源模型的第一梯队。在 Agentic Coding 评测中，其阐富强到当前开源最优水平，并在内部直接作为工程团队的编码工具使用。评测反馈中一个颇具参考价值的细节是，其输出质量已经靠近美国 AI 企业 Anthropic 高端模型的通例非思虑模式，但在更复杂的思虑模式上仍有差距。推理能力方面，在数学、STEM 以及较量级代码工作中，V4-Pro 的阐发超过现有公开评测中的开源模型，并逐步逼近顶级关源产品。世界知识方面，V4-Pro 大幅当先其他开源模型，和谷歌的顶尖关源模型 Gemini-Pro-3.1 存在差距。这些能力并非孤立存在，而是萦绕具体利用场景发展。V4 针对 Claude Code、OpenClaw、CodeBuddy 等主流 Agent 工具进行了适配，在代码天生与文档处置等工作中优化阐发Ｄ芄豢闯，它的指标并不是成为最全面的模型，而是更直接地嵌入开发流程，承担现实出产工作。系统层面则藏着 DeepSeek 可能便宜下来的 " 奥秘 "。技术汇报显示，DeepSeek 在系统底层做了一套 " 细粒度专家并行（EP）" 规划，单一理解，就是优化了 AI 模型在芯片上的 " 调度算法 "，让推算和通讯能像流水线一样沉叠进行。这套规划已在英伟达 GPU 与华为昇腾 NPU 两套系统上实现验证，推理速度提升了约 1.5 到 2 倍。这意味着同样的芯片，能处置更多的用户要求，单元成本天然就降了。不外，从开源实现来看，当前最成熟的版本仍基于 CUDA。也就是说，主题优化具备跨平台能力，但工程上的最优蹊径依然集中在寂仔的英伟达系统之中，这种状态为后续的迁徙与扩大保留了空间。定价仍旧是 DeepSeek 最让同业牙痒痒的处所。在缓存射中前提下，Pro 版本输入价值为 1 元 / 百万 token，Flash 版本低至 0.2 元；Pro 版本输出价值 24 元 / 百万 tokens，Flash 版本输出价值 2 元 / 百万 tokens，都显著低于其他模型水平。在 DeepSeek-V4 定价表格下方，一行幼字值得关注：受限于高端算力，目前 Pro 的服务吞吐极度有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价值会大幅下调。当价值调整起头 " 锚定 " 某一类算力集群的部署进度时，背后往往意味着该类算力已经在整体系统中占据了相当权沉，至少在关键蹊径上具备决定性影响。对于 DeepSeek 而言，这更像是一种间接披露——其推理或服务系统，在越来越多地成立在国产算力之上，而算力供给的变动，已经可能直接传导到定价层。同时，这一逻辑还隐含着另一层变动——模型价值不再只是取决于算法效能，而是起头由算力结构决定。随着昇腾超节点进入规；锥，单元算力成本降落所带来的，不只是利润空间的开释，更是价值系统的沉塑能力。也正是在这一意思上，DeepSeek 的廉价战术，在从工程优化驱动，逐步过渡到算力系统驱动。寡言下的野心和无奈从内表部环境看，让新模型优先适配国产芯片，是 DeepSeek 有意推动的事。它想做的不只是多找几家可用的 AI 芯片供给商，更是在尝试触碰更底层的器材——通过脱节英伟达的约束，走出由上游芯片厂约界说规定、模型公司被动适配的关系，进而反过来沉塑上游。这是 DeepSeek 真正的野心。理解这一点，要先理解梁文锋。从更早的功夫点来看，DeepSeek 对算力的器沉带有一种近乎偏执的前瞻性。2015 年，甚至更早的 2012 年，他们就关注到算力储蓄，至天生式 AI 发作前夕，已囤积了大量英伟达 A100 芯片，后来成为了 " 大厂表唯逐一家储蓄万张 A100 芯片的公司 "。梁文锋在接受暗涌采访时说：" 对钻研员来说，对算力的渴求是永无终点的。做了幼规模尝试后，总想做更大规模的尝试。" 这种渴求背后对应着一个现实的问题，大模型公司的主题出产资料不仅是代码，更是算力自身；谁可能掌控算力，谁才有资格不变地研发、出产模型。所以 DeepSeek 后来做的，不只是争取更多算力，而是在试图降低对单一算力系统的依赖。其选择国产 AI 芯片，性质上是在成立一套可控的、可持续的出产系统。而这种抉择，险些贯通了其从前多年模型研发的始终。单一说，它在做两件事：一是绕开英伟达设定好的部门 " 规定 "，二是在尝试给自己造一个跨分歧芯片都能工作的 " 全能转换头 "。第一步产生在模型架构层。2024 年 5 月颁布的 V2，用 MoE 架构大幅降低了模型对算力的亏损。它像是把一个重大的专家团队拆分成很多幼组，每次只调动最相宜的一幼部门人干活，而不是让所有人同时上阵。了局是，总参数规模固然很大，但每次真正参加推算的只是一幼部门。到了 R1 和 V3 阶段，DeepSeek 向底层 " 施工现场 " 下探。我们能够把 CUDA 理解成英伟达给开发者造订的一套通用施工规范，绝大无数模型都依照这套规范搭屋子。而 DeepSeek 起头尝试绕开其中部门尺度流程，直接接触更靠近硬件的 PTX（英伟达为编程其 GPU 而引入的一种并行线程执行架构的中央说话）指令，自己调配钢筋、水泥和施工挨次。这样做很难，由于越靠近底层，越必要对硬件细节有极深理解。但益处也显著，同样一块 GPU 能榨出更多机能，甚至在硬件前提不占优时，用工程优化添补部门差距，从而降低对高端 GPU 的依赖水平。前两步还是在英伟达系统内做更高难度的优化，去年 9 月 V3.2-Exp 的尝试，起头有了另一层意味。他们对主流算子库做了调整，引入了 TileLang ——一个 " 全能转换头 "。从前开发算子（模型运行最底层的推算单元），很像给分歧国度的电器配插头，每换一种 GPU，都要沉新改写一遍代码，成本高、周期长，并且高度依赖 CUDA。DeepSeek 的规划是，吓酌一种更高层、更通用的说话把推算逻辑写出来，再把它翻译成适配分歧 GPU 的代码。TileLang 就是这样一种尝试？⒄吣芄幌抛酶拷 Python（AI 研发的世界语）的方式急剧写出算子原型，再通过编译器映射到底层执行，并结合具体硬件做优化。这样一来，从前一块 GPU 写一套代码的方式，就起头造成先写通用逻辑，再做部门适配；棵判酒苍谕贫 TileLang 的适配，意思在这里。从架构创新，到规定绕行，再到算子库改写、国产芯片大规模适配，DeepSeek 的野心越来越大，走的路也越来越崎岖。从 V2 到 V4，中央横跨 15 个月，期间经历长功夫僻静。表界看到的是颁布频率偏低，看不见的是大量系统工程投入。这类软硬件协同创新，正本就比单纯做模型参数迭代可贵多，由于动的不只是模型，还有底层技术栈。这也诠氏缢，为什么 R1 之后 DeepSeek 人才会成为大厂争精明标——行业意识到了这种工程路线的价值。但技术梦想主义之表，DeepSeek 还有现实思考。作为一家对峙开源路线的模型公司，DeepSeek 天然不足类似 OpenAI 那样的关环贸易能力，也没有谷歌或亚马逊那样能够内部消化模型成本的云推算系统，更没有腾讯、阿里、字节等大厂那样完整的贸易生态，开源意味着更强的影响力和更快的扩散速度，但也意味着更薄的利润空间和更高的成本敏感度。这也是为什么 DeepSeek 在 V2 模型阶段就选择用极致的成本打穿市场，直接掀起一场 " 价值战 "，性质还是通过工程能力换取贸易空间。但这种优势成立在一个前提上，那就是算力成本必须可控。一旦 GPU 价值上涨或供给收紧，成本优势就会迅速被侵蚀。因而，对于一家开源公司来说，脱节对单一算力生态的依赖，不只是技术选择，更是贸易生计的要求。与此同时，同业竞争进一步放大了这种压力。从前一年，大模型高频迭代，主流厂商险些以周为单元颁布新模型，再加上多位主题人才流入其他模型厂商或大厂，DeepSeek 不得不认可，若是持续在寂仔蹊径上与同业竞争，很可能陷入节拍与资源的双沉劣势。在这样的布景下，DeepSeek 选择将万亿级参数的自研模型优先适配国产芯片，甚至有意延后向英伟达、AMD 提供接见权限，给国产芯片留足软硬件适配、调优的功夫，是一种扭转游戏规定的尝试。相比在英伟达 CUDA 系统内与同业正面竞争，DeepSeek 更有可能通过软硬件协同的方式，沉新界说自身优势天堑。这也是 DeepSeek 最擅

热点排行

【网站地图】