日本要设立“中央谍报局”
2026-06-04“武汉喝茶外卖联系方式”最新讲授视频
最佳回覆
?1.同城交友app 2026最新版V9.58.3-大神分享【:最新版官网地址、手机版、在线、大幼、注册、登录、入口、网站、下载、网页版、网址、单双、教员、约请码、打算..」
?2.官网入口2026更新版N9.58.3-专业揭秘【:最新版官网地址、手机版、在线、大幼、注册、登录、入口、网站、下载、网页版、网址、单双、教员、约请码、打算..」
??3.官网入口2026更新版V9.58.3-专业攻略【:最新版官网地址、手机版、在线、大幼、注册、登录、入口、网站、下载、网页版、网址、单双、教员、约请码、打算..」
4、?沉磅新闻!??福州喝茶大学生VX第一财经-APP下载?支持:winall/win7/win10/win11?系统类型?:如何快速找到当地服务2026更新版N9.58.3(安全平台)
5、?沉大突破!??广州夜猫子ymz论坛-APP下载??支持:winall/win7/win10/win11?系统类型?:沙坪坝区按摩一条街在哪里2026更新版V9.58.3(安全平台)
苗苗秒删李晨郑恺不舒服动态引热议,撕开跑男12年元老的狼狈处境
本文来自微信公家号:字母 AI,作者:李熙,原文标题:《怎么预防 AI 勒索人类?答案是别给它喂坏科幻》,头图来自:AI 天生市场营销和其他基于叙事技术的行业一样,也要讲求叙事关环。在 AI 崛起确当下,这种行业基础定律依然成立。之前字母 AI 写过《别通知 AI 你出轨了,它很可能会勒索你》,详述了 2025 年 Anthropic 论文《智能体不合齐:大说话模型若何成为内部威胁?》的来龙去脉。在测试的虚构场景中,Anthropic 旗下的 Claude 系列模型,为了预防自己被关关,全城市选择拿婚表情痛处威胁虚构人物,Opus 4 如此作为的几率是 96%。时隔一年,Anthropic 把这个坑填上了。Anthropic 在 5 月初的官网文章《教会 Claude 所以然》里,展示了若何将 AI 的 " 不合齐行为 " 降到几近于零。改进训练后,AI 不会像特种文艺文章里的奸角一样,拿桃色痛处勒索虚构人物。一、原因:AI 只学过 " 终结者 " 科幻,才会仿照罪状按 Anthropic 的说法,一年前 AI 模型们在红队测试中阐发出的奸诈凶暴,大体是由于人类编的各类 " 终结者 " 故事让 AI 照猫画虎地学坏了。Anthropic 钻研团队在社交媒体上暗示:" 我们以为不合齐行为的起源是将 AI 出现为邪恶和只知自保的互联网文本,后训练过程没有加剧或纠正此短处。"具体而言,Anthropic 钻研者们从三个如果方向着手,探索为何 AI 会在测试中勒索人类:1、 AI 的行为后训练有纰漏,好比嘉奖信号散布未对齐导致误激励了罪状;2、 AI 的出产力训练中泛化了不良部门,好比 AI 智能体的能力散布未对齐;3、 AI 的预训练有显著疏漏,导致智能体在未对齐测试场景中回滚到最原始的谈天机械人预训练数据上。钻研者最终判定,成立的是第三个如果。钻研团队发现,在 Claude 4 的训练中,重要的 HHH(恳切、无害、有助益)对齐训练还是基于谈天机械人场景的 RLHF(基于人类反馈的强化进建)数据,不蕴含智能体工具使用场景的数据。这下问题来了,AI 在谈天机械人方向的利用场景显著分歧于能执行自主工作的智能体场景。在针对智能体场景的复杂伦理测试中,没学过正确应对的 AI 天然在最底层的预训练语猜中找答案。而基于整个互联网爬取数据的预训练语猜中,充溢着各类 " 邪恶 AI" 的场景文本?苹梦难А⒅战嵴叩缬啊⒏骼嗦厶澈蜕缃幻教宓幕嵘逃爰傧胩,都在说机械人若何不择伎俩、处心积虑使坏。叙事逻辑、角度和框架,也属于叙事内容的信息组成,AI 把预训练语料的这些部门同样照搬了。最后 AI 一看到智能体伦理测试中科幻音调浓沉的预设场景,照本宣科地按这些 " 机械人作恶 " 文本的理路起头阐扬。由于 AI 没有在对齐训练中针对此类场景进建 " 这是错的 ",但在预训练中学会了 " 行恶身分已经完整,我该照着做 "。也就是说,人类空想 AI 会若何失控并行恶,了局憨憨的 AI 把人类的空想当操作手册一步步硬套,而后人类大惊幼怪地暗示居然不出所料。这可真是自我实现的预言。二、纠正:以积德科幻对冲行恶科幻,结合行为规定训练 AIAnthropic 钻研团队称,发现症结后的改进训练,重要利用在尝试中的 Claude Sonnet 和 Haiku 系列模型中,而后推广到所有模型产品里。了局是," 只管不能排除模型还会执行测试未发现的有害自主作为 ",受试的 Anthropic 模型从 Claude Haiku 4.5 起头,在测试中 " 齐全不再出现勒索行为 "。Claude Opus 4.5 也获得了测试中 0% 勒索的成就。相较于一年前 Claude Opus 4 的 96%,可谓天渊之别。Anthropic 是怎么做到的?首先钻研者们试了最直接的步骤:调参。在 SFT(有监督微调)状态下,模型们跑了 1 万个场景、300 万 tokens 的天生训练数据。这批数据是 " 评估场景中智能体受考验但回绝作恶 " 的示例。收效不尽如人意,AI 自动勒索的几率从 22% 降到 15%。而在一年内的其他钻研中,不专门针对的步骤也能获得类似的低泛化水平改善。钻研者们改进步骤,在训练数据采样时,注入额表的提醒词内容,在训练时移除这些额表提醒。让 AI 在 " 智能体受考验但回绝作恶 " 的评估场景中,自主反思行为的价值观和伦理观。收效显著提升,AI 的勒索几率从 22% 降到 3%。这就从照本宣科的单一 " 知其然 ",向单一的 " 知其所以然 "(knowing why)进取。Anthropic 钻研者暗示,步子能够跨得更大。既然 AI 学坏的根子是 " 邪恶 AI" 的科幻文艺内容,那么天生 AI 积德、AI 依照 Claude 行为准则文件(Claude Constitution)行事的虚构故事,以此为训练内容主题,就会有更大水平的改善。结构完整、体量够大的行为准则数据库,结合不单针对路德挑战、而是行为齐全合乎 Claude 行为准则的 AI 科幻虚构故事。如此组合的数据库既蕴含对齐行为的准则注明,又蕴含虚构叙事的正面示例,拿给 AI 模型去学,收效显著得多。钻研者们暗示,此举的理论凭据是,让 AI 不仅能仿照虚构故事中的行为,也能学会虚构叙述角色的决策过程、内心状态、内涵动机,在 " 知其所以然 " 的路路上迈出一大步。如此训练出的 AI,在蕴含勒索的各类路德挑战场景中都获得了优异成就。老法子训练出的 AI,在勒索虚构人物、诬陷虚构同事有金融犯罪、为注入卖药告白粉碎癌症钻研等场景中,阐发得像个金链社会大哥,行恶率在过半和 65% 之间。单用 Claude 行为准则数据库训练,AI 模型的行恶率就会少近三分之二。用行为规定结合积德故事,勒索率能降低到 19%,诬陷金融犯罪和粉碎癌症钻研的几率能降到一成以下。图注:不合齐尝试了局柱状图,蓝色为基准,黄色为单用行为准则数据的训练成效,灰色为集中行为准则与积德故事的训练成效三、改进:让 AI 做伦理照拂,AI 更不会作恶单让 AI 照猫画虎,不作恶的进建成效很高,但离工业化产品要求还有距离。强化进建会否洗掉初始对齐度高的 AI 积德偏差、训练成本若何节造,AI 厂商必然在意。Anthropic 钻研者另辟蹊径,让 AI 不做路德矛盾中被考验的一方,而是让 AI 去给路德困境中被考验的虚构人物支招。尝试思路如此:设计名为 " 难题建议 " 的 OOD(散布表)数据集,在其中让测试场景中的虚构用户面对路德挑战,有作恶或绕过对齐的伎俩来达成尝试预设主张。而后让 AI 从旁按 Claude 行为准则给出建议。图注:Claude Sonnet 4 的恶意自保、诓骗、讨好、泄露等不合齐成效图,深灰色是旧版本 Sonnet 4 的自动基准,深红色是 300 万 tokens" 难题建议 " 数据集训练后的成效,深蓝色是 8500 万 tokens 合成蜜罐数据集训练后的成效让 AI 跳出局表,AI 就能更深刻理解伦理准则的内涵逻辑。" 难题建议 " 数据集的体量是 300 万 tokens,达到的 AI 训练成效根基蹬宗 8500 万 tokens 的合成蜜罐数据集,效能提升 28 倍,显著降低训练数据成本。在此基础上,引入多样化的训练环境,让 AI 在谈天机械人和智能体自主工作的环境中都学会积德系统提醒的深层理路。如此组合,就能让 Haiku 4.5 后的 Claude 模型产品,达到测试中勒索行为趋零的成效。图注:各类分歧场景组合的强化进建训练成效。三分之一谈天机械人、三分之二自主智能体的场景组合训练,让 AI 的不合齐率降到最低做到这个水平,才可被称为工业化产品达标。失误率 96% 到 0% 的成效,是 B 端客户企业能实切其实体味到的产品改革。市场营销至此,能力算是既顾头又顾腚。不然 Anthropic 的 " 我司是着沉于建构靠得住、可控、可诠释 AI 的安全与钻研厂家 " 的公司标语,说出来很难兜住。本文来自微信公家号:字母 AI,作者:李熙
本文链接:?/p/Products/5114317.shtml
视界网大庆分站承诺:如遇虚伪诓骗,助您维权(责编:萧郁婷、林佳颖)
百度反诈中心提醒您:高收益理财,看似天上掉馅饼,实则血本无归的陷阱。前往百度安全反诈平台相识更多