3377体育

颁布于2026-06-04 05:57:14 来自整顿指南 ·

关注

以色列支持，英国、土耳其、西班牙齐声否决

鹿晗夸吴克群“哥应该跟我同龄”，吴克群：快能够生你了

倒佧个硅谷都在为通用人为智能（AGI）和万亿参数的通用大模型疯狂时，华尔街最神秘、最赢利的量化巨头 Jane Street（简街本钱）却在偷偷启发另一条极其奢华的算力战线。近日，驰名科技播客主持人 Dwarkesh Patel 罕见获准实地探访了 Jane Street 位于德克萨斯州的主题数据中心。在这场与 Jane Street 技术团队共同掌管人 Yaron Minsky 以及物理工程团队掌管人 Dan Pavatova 的深度对话中，这家刚刚砸下60亿美元算力巨额订单的华尔街"造王商"，初次解密了他们若何在高频买卖的"纳秒世界"与大模型的"沉算力时期"之间构筑起无法复造的绝对壁垒。主题概想：突破延长迷思：量化买卖并非全盘钻营纳秒。最优战术是"集成步骤"——100纳秒内靠 FPGA 进行极简决策；而更大、更聪明的 AI 模型则运行在微秒、毫秒甚至幼时级此外时限上。60亿美元的算力野心：金融数据的"字节与浮点运算比率（Bytes to Flop Ratio）"极高，且噪声极大。Jane Street 不钻营硅谷那种"一个模型做所有事"的通用 Scaling Law，而是通过海量定造化架构和极速迭代来榨取超额收益；∩枋┏尚率ケ算力的真正瓶颈早已不是芯片自身，而是发电机、变压器和液冷设备。为了让 GPU 提前 6 个月上线，公司甚至能够做出"烧毁全面发电机备份"的激进贸易决策。买卖是"AGI齐全"问题：买卖的性质是预测未来。在市场产生"相变（极端异常）"时，人类的元判断远比模型靠得住。AI 时期，顶尖工程师和买卖员的身价不降反升。纳秒极速与大模型的"功夫谱系"表界对高频量化买卖一向存在一种刻板印象：机械必须紧挨着买卖所（服务器托管 Colo），每一笔买卖都必须在纳秒级内实现，而动辄必要巨大推算延长的 AI 大模型似乎与之格格不入。对此，Yaron Minsky 明确指出："量化买卖不存在单一的功夫跨度，而是存在一个齐全的谱系。"100纳秒内的"极限硬件生计"在百纳秒级此外极限速度下，决定输赢的甚至不是编程说话（无论是 OCaml、Rust 还是 C++），而是纯正的硬件逻辑：主题设备：直接挂载在网络导线上的 FPGA（现场可编程门阵列）。极限速度： "若是你在输入和输出的导线上衔接一个示波器，你会看到数据包在被齐全接管完之前，就已经起头从输出端发出去了。"价值：这种极致速度褫夺了复杂的推算空间，此时的决策逻辑极其单一。微秒到幼时级的"AI主战场"随着决策功夫窗口放宽到几微秒、几百微秒、毫秒甚至数幼时，更大、更聪明的 AI 模型便有了用武之地。预测主题：预测资产的"公允价值（Fair Value）"，并将其作为？楦叨瓤勺楹系厍度氲礁骼嗦蚵袅鞒讨？占浣媒菪裕模型越大、越慢，物理搁置的地位就能够离买卖所越远。这使得巨型 GPU 集群不用拥挤在昂贵且受限的买卖所托管机房中，开释了算力规模。砸下60亿美元算力：为何不走硅谷的 Scaling Law？不久前，Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿美元的推算和谈。针对这笔惊人的投入，Yaron 论述了华尔街与硅谷 AI 尝试室（如 OpenAI 等）在 Scaling Law（规模定律）上的性质区别。回绝"大一统"，拥抱"定造化"传统 AI 尝试室钻营训练一个齐全通用的、能做所有事件的单一模型。而 Jane Street 的价值则来自于模型架构的极大多样性与疯狂的尝试数量。钻研人员必要极快的迭代功夫，去针对千奇百怪的数据源尝试截然分歧的全新模型设计。怪异的"字节与浮点运算比率（Bytes to Flop Ratio）"金融领域的 AI 训练有着怪异的底层动力学：高数据量，低信息密度：金融数据蕴含海量的噪声，单字节的信息量远低于天然说话。模型特点：相比大说话模型（LLM），Jane Street 的模型往往更幼，但吞吐的数据量却大得多，对数据加载和存储机能的要求达到了畸形的级别。为此，他们在大举构建自己内部的大规模对象存储系统。算力战局的隐形瓶颈：从芯片到发电机与变压器当硅谷还在为英伟达最新的 GPU 芯片大打出手时，掌管物理工程的 Dan Pavatova 泄漏，真正的战场已经转移到了物理基础设施上。贸易决策战胜纯工程美满主义"发电机是目前你能买到的交货周期（Lead Time）最长的设备之一，" Dan 暗示。为了突破这个瓶颈，Jane Street 展示出了极其狼性的华尔街思想："我们能够挑战以前的观点。整个数据中心真的都必要发电机备份吗？若是我们拿掉部门备份，只留给最主题的系统，就能让3377体育 GPU 提前 6 个月上线。从工程上看这或许不是最美满的，但这绝对是最好的贸易决定。"物理极限的逼近：1兆瓦机架与800V直流电随着算力密度的疯狂飙升，未来的技术规划在产生剧变：设备瓶颈：目前变压器、发电机以及用于液冷的冷却设备处于极端欠缺状态。技术演进：数据中心在向单机架 1兆瓦（MW）的恐怖密度迈进，冷却管路越来越粗。供电架构也在从传统的互换电向 800伏直流电（DC）演进。两阶段锁定战术：鉴于芯片迭代太快而基础设施建设太慢，Jane Street 偏差于"做多（Long）"电力和数据中心容量，先锁定能源，再推迟对昂贵芯片的采购决策，甚至在必要时将电力容量分流给他人。被迫烧毁的"x86捷径"多年来，Jane Street 运营技术组织的一个窍门是"走捷径"：假装世界上只有 x86_64 一种 CPU 架构，并且只守护一个大型钻研数据中心和一个存储集群。但此刻，随着算力需要全球化散布（无法在单一地址引入足够恐怖的电力），以及英伟达全新 ARM 架构产品的推出，这一捷径已被彻底突破。推算和存储调度的交错、以及对 ARM 架构的支持，让系统复杂度变高了几个数量级。四、 AGI时期，人类认知为何依然是"终极护城河"？当被问及"一旦 AGI（通用人为智能）实现，是否会立刻让 Jane Street 失业"这一激进问题时，Yaron 给出了一个极度复苏且深刻的回覆。买卖是"AGI齐全（AGI-complete）"问题Yaron 以为，买卖性质上和"NP齐全"问题一样，是一个"AGI齐全"问题。这意味着世界上产生的任何风吹草动（政治、天灾、科技刷新）最终城市汇入并影响买卖布景。"在单一的部门被自动化后，那些模型无法自动化的硬核部门，反而成为了竞争优势的终极地点。我从来没有像今天这样火急地想要招聘更多的工程师和买卖员。"无法被电子化取代的"人际建辞"与相变非电子化买卖依然壮大：即便在今天，大量大额买卖（如债券业务）依然依赖于人与人之间通过谈天工具的直接沟通。买卖员必要肉眼和直觉去评估电话那头的人代表了多大水平的"逆向选择（Adverse Selection）"（即对方是否把握了你不知路的黑幕）。相变中的"元判断（Meta Judgment）"："简街最赢利的日子，往往是世界陷入疯狂、没人知路产生了什么、市场产生‘相变’的时刻。我们但愿模型能阐发好，但我们深知，人类在应对相变时比模型靠谱得多。此时必要一种人类独有的‘元判断’来决定系统该做什么。" 全面扩招：简街在寻找哪些人？随着 GPU 规模在短期内打算从几万张疯狂飙升至几十万张，Jane Street 在全球领域内发展前所未有的人才搜猎，机械进建和买卖如今是一项"全方位的团队活动"：物理工程类：机械工程师、电气工程师、结构工程师、项目经理、构筑师（掌管数据中心全性命周期的寻找、设计、建造与运营）。通用/专业软件工程：除了高尺度推算机科学布景的通用工程师，简街此刻疯狂巴望"全舰队/全集群领域优化（Fleet-wide Optimization）"的人才（类似于超大规模云服务商的架构师），由于当算力投资达到数十亿美元时，通用的微幼优化将产生巨额的财政回报。前沿硬件与数理钻研：设计定造芯片（ASIC）的硬件工程师；利用数学证明让软件更高效的"大局化步骤（Formal Methods）"团队（AI 革命让这一冷门领域一夜回春）；以及拥罕见学、物理、推算机布景的买卖员。高阶前端工程师：从前简街极端崇尚号令行终端，假装 Web 网页技术从未产生过。但此刻为了给钻研人员提供更直观的 AI 工具、画出精准的直线和工具提醒，他们在大举投资建设顶尖的前端开发团队。以下为对谈全文，由AI辅助翻译：Dwarkesh：Jane Street 是我播客的合作同伴，我们想到的一个有趣点子是：为什么我不外来亲自参观一下你们运行的用于训练（AI模型）的数据中心呢？所以我刚刚在技术团队共同掌管人 Yaron Minsky（译注：视频中口误及速记为 Ron Minsky）和物理工程团队掌管人 Dan Pavatova（译注：速记为 Dan Ponttovo）的携带下，参观了这个位于德克萨斯州的数据中心。极度感激两位带我参观。值得一提的是，我以前从未去过这种处所，所以我也是第一次参观，这太棒了。以前我一向很猜疑：既然你们必要在纳秒（nanosecond）级别进行买卖，那你们怎么能做 GPU 有关的事件呢？也许你们能够具体讲讲，你们买卖的现实功夫跨度（时限）是怎么的？在做出买卖决策的过程中，你们能职守得起运行大型模型的成本（或功夫延长）吗？Yaron：我以为这里必要理解的主题一点是，并没有单一的功夫跨度，而是存在着很多分歧的功夫跨度。我们构建的一些买卖系统和进行的某些买卖，为了维持竞争力，你现实上必须在 100 纳秒以内处置并返回一个数据包。这是一个齐全分歧的技术领域，对吧？人们有时会会商，好比："哦，你们能用 OCaml 编写高机能的器材吗？"3377体育回覆是："我们能够。但对于这种级此外速度，不论你是用 OCaml、Rust 还是 C++ 编写都不沉要，由于你底子无法使用 CPU。你必须使用 FPGA，它直接通过导线衔接到网络上。你返回数据包的速度非？，若是你在输入和输出的导线上衔接一个示波器，你会看到数据包在被齐全接管完之前，就已经起头从输出端发出去了。"所以这是一个极度分歧、极度特殊的领域。但是，当你处于这个功夫领域时，你现实上无法进行太多的推算，你所做的决策将会极度单一。事实上，在决策的"聪明水平"（无论是模型还是其他某种甚至是手写的决策过程）与"返回速度"之间，存在着一条齐全的衡量曲线。而构建最佳买卖战术的正确步骤，现实上是选取一种集成（ensemble）步骤。对于某些类型的决策，你会极度迅速地做出极度单一的决策；对于某些类型的决策，你的运作规？赡苁恰辉偈撬伎 100 纳秒，也许是几微秒、几十微秒、几百微秒或毫秒；而在某些情况下，有些流程若是能在半幼时或当天内实现决策返回，那也齐全没问题，在这些功夫跨度上，你在功夫基础上同样拥有竞争力。但在所有这些分歧的功夫跨度上，你所做的决策类型是齐全分歧的。也许你不便泄漏，但这些模型到底在预测什么？注定不只是订单簿（order book）中的下一个改观吧，或者也许就是？我们此刻显然是在触及一些很难公开讨论的话题。但我以为最单一也最沉要的一个，也是我们一向在思虑的——不仅是此刻在想，25 年前我刚参与 Jane Street、用线性回归等工具构建模型时就在想——一个极度有效、极度经典的事件就是预测某样器材的公允价值（fair value）。好比，我们以为这个器材真正值几多钱？这可能以一种非？勺楹系姆绞饺谌氲胶芏喾制绲穆蚵袅鞒讨。这并不是我们作为预测指标的唯逐一类事物，但它是一个很沉要的指标。有一阵子，我感触有一种关于买卖公司在做什么的梗（meme），那就是：你必须搞定服务器托管（colo），搬到纳斯达克买卖所地点的处所，你的机械必须紧挨着那儿，这极度沉要。在不深刻会商我们把什么器材放在哪里的具体细节的前提下，你的推理（inference）过程可能在 CPU 上，可能在 FPGA 上，也

热点排行

【网站地图】