以色列支持,英国、土耳其、西班牙齐声否决
倒佧个硅谷都在为通用人为智能(AGI)和万亿参数的通用大模型疯狂时,华尔街最神秘、最赢利的量化巨头 Jane Street(简街本钱)却在偷偷启发另一条极其奢华的算力战线。近日,驰名科技播客主持人 Dwarkesh Patel 罕见获准实地探访了 Jane Street 位于德克萨斯州的主题数据中心。在这场与 Jane Street 技术团队共同掌管人 Yaron Minsky 以及物理工程团队掌管人 Dan Pavatova 的深度对话中,这家刚刚砸下60亿美元算力巨额订单的华尔街"造王商",初次解密了他们若何在高频买卖的"纳秒世界"与大模型的"沉算力时期"之间构筑起无法复造的绝对壁垒。 主题概想:突破延长迷思: 量化买卖并非全盘钻营纳秒。最优战术是"集成步骤"——100纳秒内靠 FPGA 进行极简决策;而更大、更聪明的 AI 模型则运行在微秒、毫秒甚至幼时级此外时限上。60亿美元的算力野心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高,且噪声极大。Jane Street 不钻营硅谷那种"一个模型做所有事"的通用 Scaling Law,而是通过海量定造化架构和极速迭代来榨取超额收益;∩枋┏尚率ケ 算力的真正瓶颈早已不是芯片自身,而是发电机、变压器和液冷设备。为了让 GPU 提前 6 个月上线,公司甚至能够做出"烧毁全面发电机备份"的激进贸易决策。买卖是"AGI齐全"问题: 买卖的性质是预测未来。在市场产生"相变(极端异常)"时,人类的元判断远比模型靠得住。AI 时期,顶尖工程师和买卖员的身价不降反升。 纳秒极速与大模型的"功夫谱系"表界对高频量化买卖一向存在一种刻板印象:机械必须紧挨着买卖所(服务器托管 Colo),每一笔买卖都必须在纳秒级内实现,而动辄必要巨大推算延长的 AI 大模型似乎与之格格不入。对此,Yaron Minsky 明确指出:"量化买卖不存在单一的功夫跨度,而是存在一个齐全的谱系。"100纳秒内的"极限硬件生计"在百纳秒级此外极限速度下,决定输赢的甚至不是编程说话(无论是 OCaml、Rust 还是 C++),而是纯正的硬件逻辑:主题设备: 直接挂载在网络导线上的 FPGA(现场可编程门阵列)。极限速度: "若是你在输入和输出的导线上衔接一个示波器,你会看到数据包在被齐全接管完之前,就已经起头从输出端发出去了。"价值: 这种极致速度褫夺了复杂的推算空间,此时的决策逻辑极其单一。微秒到幼时级的"AI主战场"随着决策功夫窗口放宽到几微秒、几百微秒、毫秒甚至数幼时,更大、更聪明的 AI 模型便有了用武之地。预测主题: 预测资产的"公允价值(Fair Value)",并将其作为?楦叨瓤勺楹系厍度氲礁骼嗦蚵袅鞒讨?占浣媒菪裕 模型越大、越慢,物理搁置的地位就能够离买卖所越远。这使得巨型 GPU 集群不用拥挤在昂贵且受限的买卖所托管机房中,开释了算力规模。 砸下60亿美元算力:为何不走硅谷的 Scaling Law?不久前,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿美元 的推算和谈。针对这笔惊人的投入,Yaron 论述了华尔街与硅谷 AI 尝试室(如 OpenAI 等)在 Scaling Law(规模定律)上的性质区别。回绝"大一统",拥抱"定造化"传统 AI 尝试室钻营训练一个齐全通用的、能做所有事件的单一模型。而 Jane Street 的价值则来自于模型架构的极大多样性与疯狂的尝试数量。钻研人员必要极快的迭代功夫,去针对千奇百怪的数据源尝试截然分歧的全新模型设计。怪异的"字节与浮点运算比率(Bytes to Flop Ratio)"金融领域的 AI 训练有着怪异的底层动力学:高数据量,低信息密度: 金融数据蕴含海量的噪声,单字节的信息量远低于天然说话。模型特点: 相比大说话模型(LLM),Jane Street 的模型往往更幼,但吞吐的数据量却大得多,对数据加载和存储机能的要求达到了畸形的级别。为此,他们在大举构建自己内部的大规模对象存储系统。 算力战局的隐形瓶颈:从芯片到发电机与变压器当硅谷还在为英伟达最新的 GPU 芯片大打出手时,掌管物理工程的 Dan Pavatova 泄漏,真正的战场已经转移到了物理基础设施上。贸易决策战胜纯工程美满主义"发电机是目前你能买到的交货周期(Lead Time)最长的设备之一," Dan 暗示。为了突破这个瓶颈,Jane Street 展示出了极其狼性的华尔街思想:"我们能够挑战以前的观点。整个数据中心真的都必要发电机备份吗?若是我们拿掉部门备份,只留给最主题的系统,就能让3377体育 GPU 提前 6 个月上线。从工程上看这或许不是最美满的,但这绝对是最好的贸易决定。"物理极限的逼近:1兆瓦机架与800V直流电随着算力密度的疯狂飙升,未来的技术规划在产生剧变:设备瓶颈: 目前变压器、发电机以及用于液冷的冷却设备处于极端欠缺状态。技术演进: 数据中心在向单机架 1兆瓦(MW) 的恐怖密度迈进,冷却管路越来越粗。供电架构也在从传统的互换电向 800伏直流电(DC) 演进。两阶段锁定战术: 鉴于芯片迭代太快而基础设施建设太慢,Jane Street 偏差于"做多(Long)"电力和数据中心容量,先锁定能源,再推迟对昂贵芯片的采购决策,甚至在必要时将电力容量分流给他人。被迫烧毁的"x86捷径"多年来,Jane Street 运营技术组织的一个窍门是"走捷径":假装世界上只有 x86_64 一种 CPU 架构,并且只守护一个大型钻研数据中心和一个存储集群。但此刻,随着算力需要全球化散布(无法在单一地址引入足够恐怖的电力),以及英伟达全新 ARM 架构产品的推出,这一捷径已被彻底突破。推算和存储调度的交错、以及对 ARM 架构的支持,让系统复杂度变高了几个数量级。 四、 AGI时期,人类认知为何依然是"终极护城河"?当被问及"一旦 AGI(通用人为智能)实现,是否会立刻让 Jane Street 失业"这一激进问题时,Yaron 给出了一个极度复苏且深刻的回覆。买卖是"AGI齐全(AGI-complete)"问题Yaron 以为,买卖性质上和"NP齐全"问题一样,是一个"AGI齐全"问题。这意味着世界上产生的任何风吹草动(政治、天灾、科技刷新)最终城市汇入并影响买卖布景。"在单一的部门被自动化后,那些模型无法自动化的硬核部门,反而成为了竞争优势的终极地点。我从来没有像今天这样火急地想要招聘更多的工程师和买卖员。"无法被电子化取代的"人际建辞"与相变非电子化买卖依然壮大: 即便在今天,大量大额买卖(如债券业务)依然依赖于人与人之间通过谈天工具的直接沟通。买卖员必要肉眼和直觉去评估电话那头的人代表了多大水平的"逆向选择(Adverse Selection)"(即对方是否把握了你不知路的黑幕)。相变中的"元判断(Meta Judgment)":"简街最赢利的日子,往往是世界陷入疯狂、没人知路产生了什么、市场产生‘相变’的时刻。我们但愿模型能阐发好,但我们深知,人类在应对相变时比模型靠谱得多。此时必要一种人类独有的‘元判断’来决定系统该做什么。" 全面扩招:简街在寻找哪些人?随着 GPU 规模在短期内打算从几万张疯狂飙升至几十万张,Jane Street 在全球领域内发展前所未有的人才搜猎,机械进建和买卖如今是一项"全方位的团队活动":物理工程类: 机械工程师、电气工程师、结构工程师、项目经理、构筑师(掌管数据中心全性命周期的寻找、设计、建造与运营)。通用/专业软件工程: 除了高尺度推算机科学布景的通用工程师,简街此刻疯狂巴望"全舰队/全集群领域优化(Fleet-wide Optimization)"的人才(类似于超大规模云服务商的架构师),由于当算力投资达到数十亿美元时,通用的微幼优化将产生巨额的财政回报。前沿硬件与数理钻研: 设计定造芯片(ASIC)的硬件工程师;利用数学证明让软件更高效的"大局化步骤(Formal Methods)"团队(AI 革命让这一冷门领域一夜回春);以及拥罕见学、物理、推算机布景的买卖员。高阶前端工程师: 从前简街极端崇尚号令行终端,假装 Web 网页技术从未产生过。但此刻为了给钻研人员提供更直观的 AI 工具、画出精准的直线和工具提醒,他们在大举投资建设顶尖的前端开发团队。以下为对谈全文,由AI辅助翻译:Dwarkesh:Jane Street 是我播客的合作同伴,我们想到的一个有趣点子是:为什么我不外来亲自参观一下你们运行的用于训练(AI模型)的数据中心呢?所以我刚刚在技术团队共同掌管人 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队掌管人 Dan Pavatova(译注:速记为 Dan Ponttovo)的携带下,参观了这个位于德克萨斯州的数据中心。极度感激两位带我参观。值得一提的是,我以前从未去过这种处所,所以我也是第一次参观,这太棒了。以前我一向很猜疑:既然你们必要在纳秒(nanosecond)级别进行买卖,那你们怎么能做 GPU 有关的事件呢?也许你们能够具体讲讲,你们买卖的现实功夫跨度(时限)是怎么的?在做出买卖决策的过程中,你们能职守得起运行大型模型的成本(或功夫延长)吗?Yaron:我以为这里必要理解的主题一点是,并没有单一的功夫跨度,而是存在着很多分歧的功夫跨度。我们构建的一些买卖系统和进行的某些买卖,为了维持竞争力,你现实上必须在 100 纳秒以内处置并返回一个数据包。这是一个齐全分歧的技术领域,对吧?人们有时会会商,好比:"哦,你们能用 OCaml 编写高机能的器材吗?"3377体育回覆是:"我们能够。但对于这种级此外速度,不论你是用 OCaml、Rust 还是 C++ 编写都不沉要,由于你底子无法使用 CPU。你必须使用 FPGA,它直接通过导线衔接到网络上。你返回数据包的速度非?,若是你在输入和输出的导线上衔接一个示波器,你会看到数据包在被齐全接管完之前,就已经起头从输出端发出去了。"所以这是一个极度分歧、极度特殊的领域。但是,当你处于这个功夫领域时,你现实上无法进行太多的推算,你所做的决策将会极度单一。事实上,在决策的"聪明水平"(无论是模型还是其他某种甚至是手写的决策过程)与"返回速度"之间,存在着一条齐全的衡量曲线。而构建最佳买卖战术的正确步骤,现实上是选取一种集成(ensemble)步骤。对于某些类型的决策,你会极度迅速地做出极度单一的决策;对于某些类型的决策,你的运作规?赡苁恰辉偈撬伎 100 纳秒,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下,有些流程若是能在半幼时或当天内实现决策返回,那也齐全没问题,在这些功夫跨度上,你在功夫基础上同样拥有竞争力。但在所有这些分歧的功夫跨度上,你所做的决策类型是齐全分歧的。也许你不便泄漏,但这些模型到底在预测什么?注定不只是订单簿(order book)中的下一个改观吧,或者也许就是?我们此刻显然是在触及一些很难公开讨论的话题。但我以为最单一也最沉要的一个,也是我们一向在思虑的——不仅是此刻在想,25 年前我刚参与 Jane Street、用线性回归等工具构建模型时就在想——一个极度有效、极度经典的事件就是预测某样器材的公允价值(fair value)。好比,我们以为这个器材真正值几多钱?这可能以一种非?勺楹系姆绞饺谌氲胶芏喾制绲穆蚵袅鞒讨。这并不是我们作为预测指标的唯逐一类事物,但它是一个很沉要的指标。有一阵子,我感触有一种关于买卖公司在做什么的梗(meme),那就是:你必须搞定服务器托管(colo),搬到纳斯达克买卖所地点的处所,你的机械必须紧挨着那儿,这极度沉要。在不深刻会商我们把什么器材放在哪里的具体细节的前提下,你的推理(inference)过程可能在 CPU 上,可能在 FPGA 上,也