3377体育

起源:用户此刻 ,作者: 高手秘籍 ,:

以色列支持 ,英国、土耳其、西班牙齐声否决

鹿晗夸吴克群“哥应该跟我同龄” ,吴克群:快能够生你了

倒佧个硅谷都在为通用人为智能(AGI)和万亿参数的通用大模型疯狂时 ,华尔街最神秘、最赢利的量化巨头 Jane Street(简街本钱)却在偷偷启发另一条极其奢华的算力战线。近日 ,驰名科技播客主持人 Dwarkesh Patel 罕见获准实地探访了 Jane Street 位于德克萨斯州的主题数据中心。在这场与 Jane Street 技术团队共同掌管人 Yaron Minsky 以及物理工程团队掌管人 Dan Pavatova 的深度对话中 ,这家刚刚砸下60亿美元算力巨额订单的华尔街"造王商" ,初次解密了他们若何在高频买卖的"纳秒世界"与大模型的"沉算力时期"之间构筑起无法复造的绝对壁垒。 主题概想:突破延长迷思: 量化买卖并非全盘钻营纳秒。最优战术是"集成步骤"——100纳秒内靠 FPGA 进行极简决策;而更大、更聪明的 AI 模型则运行在微秒、毫秒甚至幼时级此外时限上。60亿美元的算力野心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高 ,且噪声极大。Jane Street 不钻营硅谷那种"一个模型做所有事"的通用 Scaling Law ,而是通过海量定造化架构和极速迭代来榨取超额收益;∩枋┏尚率ケ 算力的真正瓶颈早已不是芯片自身 ,而是发电机、变压器和液冷设备。为了让 GPU 提前 6 个月上线 ,公司甚至能够做出"烧毁全面发电机备份"的激进贸易决策。买卖是"AGI齐全"问题: 买卖的性质是预测未来。在市场产生"相变(极端异常)"时 ,人类的元判断远比模型靠得住。AI 时期 ,顶尖工程师和买卖员的身价不降反升。 纳秒极速与大模型的"功夫谱系"表界对高频量化买卖一向存在一种刻板印象:机械必须紧挨着买卖所(服务器托管 Colo) ,每一笔买卖都必须在纳秒级内实现 ,而动辄必要巨大推算延长的 AI 大模型似乎与之格格不入。对此 ,Yaron Minsky 明确指出:"量化买卖不存在单一的功夫跨度 ,而是存在一个齐全的谱系。"100纳秒内的"极限硬件生计"在百纳秒级此外极限速度下 ,决定输赢的甚至不是编程说话(无论是 OCaml、Rust 还是 C++) ,而是纯正的硬件逻辑:主题设备: 直接挂载在网络导线上的 FPGA(现场可编程门阵列)。极限速度: "若是你在输入和输出的导线上衔接一个示波器 ,你会看到数据包在被齐全接管完之前 ,就已经起头从输出端发出去了。"价值: 这种极致速度褫夺了复杂的推算空间 ,此时的决策逻辑极其单一。微秒到幼时级的"AI主战场"随着决策功夫窗口放宽到几微秒、几百微秒、毫秒甚至数幼时 ,更大、更聪明的 AI 模型便有了用武之地。预测主题: 预测资产的"公允价值(Fair Value)" ,并将其作为  ?楦叨瓤勺楹系厍度氲礁骼嗦蚵袅鞒讨  ?占浣媒菪裕 模型越大、越慢 ,物理搁置的地位就能够离买卖所越远。这使得巨型 GPU 集群不用拥挤在昂贵且受限的买卖所托管机房中 ,开释了算力规模。 砸下60亿美元算力:为何不走硅谷的 Scaling Law  ?不久前 ,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿美元 的推算和谈。针对这笔惊人的投入 ,Yaron 论述了华尔街与硅谷 AI 尝试室(如 OpenAI 等)在 Scaling Law(规模定律)上的性质区别。回绝"大一统" ,拥抱"定造化"传统 AI 尝试室钻营训练一个齐全通用的、能做所有事件的单一模型。而 Jane Street 的价值则来自于模型架构的极大多样性与疯狂的尝试数量。钻研人员必要极快的迭代功夫 ,去针对千奇百怪的数据源尝试截然分歧的全新模型设计。怪异的"字节与浮点运算比率(Bytes to Flop Ratio)"金融领域的 AI 训练有着怪异的底层动力学:高数据量 ,低信息密度: 金融数据蕴含海量的噪声 ,单字节的信息量远低于天然说话。模型特点: 相比大说话模型(LLM) ,Jane Street 的模型往往更幼 ,但吞吐的数据量却大得多 ,对数据加载和存储机能的要求达到了畸形的级别。为此 ,他们在大举构建自己内部的大规模对象存储系统。 算力战局的隐形瓶颈:从芯片到发电机与变压器当硅谷还在为英伟达最新的 GPU 芯片大打出手时 ,掌管物理工程的 Dan Pavatova 泄漏 ,真正的战场已经转移到了物理基础设施上。贸易决策战胜纯工程美满主义"发电机是目前你能买到的交货周期(Lead Time)最长的设备之一 ," Dan 暗示。为了突破这个瓶颈 ,Jane Street 展示出了极其狼性的华尔街思想:"我们能够挑战以前的观点。整个数据中心真的都必要发电机备份吗  ?若是我们拿掉部门备份 ,只留给最主题的系统 ,就能让3377体育 GPU 提前 6 个月上线。从工程上看这或许不是最美满的 ,但这绝对是最好的贸易决定。"物理极限的逼近:1兆瓦机架与800V直流电随着算力密度的疯狂飙升 ,未来的技术规划在产生剧变:设备瓶颈: 目前变压器、发电机以及用于液冷的冷却设备处于极端欠缺状态。技术演进: 数据中心在向单机架 1兆瓦(MW) 的恐怖密度迈进 ,冷却管路越来越粗。供电架构也在从传统的互换电向 800伏直流电(DC) 演进。两阶段锁定战术: 鉴于芯片迭代太快而基础设施建设太慢 ,Jane Street 偏差于"做多(Long)"电力和数据中心容量 ,先锁定能源 ,再推迟对昂贵芯片的采购决策 ,甚至在必要时将电力容量分流给他人。被迫烧毁的"x86捷径"多年来 ,Jane Street 运营技术组织的一个窍门是"走捷径":假装世界上只有 x86_64 一种 CPU 架构 ,并且只守护一个大型钻研数据中心和一个存储集群。但此刻 ,随着算力需要全球化散布(无法在单一地址引入足够恐怖的电力) ,以及英伟达全新 ARM 架构产品的推出 ,这一捷径已被彻底突破。推算和存储调度的交错、以及对 ARM 架构的支持 ,让系统复杂度变高了几个数量级。 四、 AGI时期 ,人类认知为何依然是"终极护城河"  ?当被问及"一旦 AGI(通用人为智能)实现 ,是否会立刻让 Jane Street 失业"这一激进问题时 ,Yaron 给出了一个极度复苏且深刻的回覆。买卖是"AGI齐全(AGI-complete)"问题Yaron 以为 ,买卖性质上和"NP齐全"问题一样 ,是一个"AGI齐全"问题。这意味着世界上产生的任何风吹草动(政治、天灾、科技刷新)最终城市汇入并影响买卖布景。"在单一的部门被自动化后 ,那些模型无法自动化的硬核部门 ,反而成为了竞争优势的终极地点。我从来没有像今天这样火急地想要招聘更多的工程师和买卖员。"无法被电子化取代的"人际建辞"与相变非电子化买卖依然壮大: 即便在今天 ,大量大额买卖(如债券业务)依然依赖于人与人之间通过谈天工具的直接沟通。买卖员必要肉眼和直觉去评估电话那头的人代表了多大水平的"逆向选择(Adverse Selection)"(即对方是否把握了你不知路的黑幕)。相变中的"元判断(Meta Judgment)":"简街最赢利的日子 ,往往是世界陷入疯狂、没人知路产生了什么、市场产生‘相变’的时刻。我们但愿模型能阐发好 ,但我们深知 ,人类在应对相变时比模型靠谱得多。此时必要一种人类独有的‘元判断’来决定系统该做什么。" 全面扩招:简街在寻找哪些人  ?随着 GPU 规模在短期内打算从几万张疯狂飙升至几十万张 ,Jane Street 在全球领域内发展前所未有的人才搜猎 ,机械进建和买卖如今是一项"全方位的团队活动":物理工程类: 机械工程师、电气工程师、结构工程师、项目经理、构筑师(掌管数据中心全性命周期的寻找、设计、建造与运营)。通用/专业软件工程: 除了高尺度推算机科学布景的通用工程师 ,简街此刻疯狂巴望"全舰队/全集群领域优化(Fleet-wide Optimization)"的人才(类似于超大规模云服务商的架构师) ,由于当算力投资达到数十亿美元时 ,通用的微幼优化将产生巨额的财政回报。前沿硬件与数理钻研: 设计定造芯片(ASIC)的硬件工程师;利用数学证明让软件更高效的"大局化步骤(Formal Methods)"团队(AI 革命让这一冷门领域一夜回春);以及拥罕见学、物理、推算机布景的买卖员。高阶前端工程师: 从前简街极端崇尚号令行终端 ,假装 Web 网页技术从未产生过。但此刻为了给钻研人员提供更直观的 AI 工具、画出精准的直线和工具提醒 ,他们在大举投资建设顶尖的前端开发团队。以下为对谈全文 ,由AI辅助翻译:Dwarkesh:Jane Street 是我播客的合作同伴 ,我们想到的一个有趣点子是:为什么我不外来亲自参观一下你们运行的用于训练(AI模型)的数据中心呢  ?所以我刚刚在技术团队共同掌管人 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队掌管人 Dan Pavatova(译注:速记为 Dan Ponttovo)的携带下 ,参观了这个位于德克萨斯州的数据中心。极度感激两位带我参观。值得一提的是 ,我以前从未去过这种处所 ,所以我也是第一次参观 ,这太棒了。以前我一向很猜疑:既然你们必要在纳秒(nanosecond)级别进行买卖 ,那你们怎么能做 GPU 有关的事件呢  ?也许你们能够具体讲讲 ,你们买卖的现实功夫跨度(时限)是怎么的  ?在做出买卖决策的过程中 ,你们能职守得起运行大型模型的成本(或功夫延长)吗  ?Yaron:我以为这里必要理解的主题一点是 ,并没有单一的功夫跨度 ,而是存在着很多分歧的功夫跨度。我们构建的一些买卖系统和进行的某些买卖 ,为了维持竞争力 ,你现实上必须在 100 纳秒以内处置并返回一个数据包。这是一个齐全分歧的技术领域 ,对吧  ?人们有时会会商 ,好比:"哦 ,你们能用 OCaml 编写高机能的器材吗  ?"3377体育回覆是:"我们能够。但对于这种级此外速度 ,不论你是用 OCaml、Rust 还是 C++ 编写都不沉要 ,由于你底子无法使用 CPU。你必须使用 FPGA ,它直接通过导线衔接到网络上。你返回数据包的速度非  ? ,若是你在输入和输出的导线上衔接一个示波器 ,你会看到数据包在被齐全接管完之前 ,就已经起头从输出端发出去了。"所以这是一个极度分歧、极度特殊的领域。但是 ,当你处于这个功夫领域时 ,你现实上无法进行太多的推算 ,你所做的决策将会极度单一。事实上 ,在决策的"聪明水平"(无论是模型还是其他某种甚至是手写的决策过程)与"返回速度"之间 ,存在着一条齐全的衡量曲线。而构建最佳买卖战术的正确步骤 ,现实上是选取一种集成(ensemble)步骤。对于某些类型的决策 ,你会极度迅速地做出极度单一的决策;对于某些类型的决策 ,你的运作规  ?赡苁恰辉偈撬伎 100 纳秒 ,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下 ,有些流程若是能在半幼时或当天内实现决策返回 ,那也齐全没问题 ,在这些功夫跨度上 ,你在功夫基础上同样拥有竞争力。但在所有这些分歧的功夫跨度上 ,你所做的决策类型是齐全分歧的。也许你不便泄漏 ,但这些模型到底在预测什么  ?注定不只是订单簿(order book)中的下一个改观吧 ,或者也许就是  ?我们此刻显然是在触及一些很难公开讨论的话题。但我以为最单一也最沉要的一个 ,也是我们一向在思虑的——不仅是此刻在想 ,25 年前我刚参与 Jane Street、用线性回归等工具构建模型时就在想——一个极度有效、极度经典的事件就是预测某样器材的公允价值(fair value)。好比 ,我们以为这个器材真正值几多钱  ?这可能以一种非  ?勺楹系姆绞饺谌氲胶芏喾制绲穆蚵袅鞒讨。这并不是我们作为预测指标的唯逐一类事物 ,但它是一个很沉要的指标。有一阵子 ,我感触有一种关于买卖公司在做什么的梗(meme) ,那就是:你必须搞定服务器托管(colo) ,搬到纳斯达克买卖所地点的处所 ,你的机械必须紧挨着那儿 ,这极度沉要。在不深刻会商我们把什么器材放在哪里的具体细节的前提下 ,你的推理(inference)过程可能在 CPU 上 ,可能在 FPGA 上 ,也

热点排行

【网站地图】