作者LoveSports (我要当一个渣攻)
看板Stock
标题[新闻] Anthropic 承诺保存退役模型——这代表什麽?
时间Thu Nov 13 15:43:07 2025
原文标题:
Anthropic 承诺保存退役模型——这代表什麽?
原文连结:
https://forbesjapan.com/articles/detail/84782
发布时间:
11/12(周三) 15:00
记者署名:
Ron Schmelzer
原文内容:
当新模型问世时,现有的模型会何去何从?在一般的科技行业惯例中,旧模型会被淘汰,
由新模型取而代之,旧模型也将无法再使用。然而,
对於那些依赖旧模型运作来建构流程
和实务的用户来说,这种做法会带来问题。
Anthropic公司采取了不同的方针,本周发表了一份研究纪要,
承诺将会保存使用率高的
模型的权重(weights,即学习完成的参数)。该纪要同时也说明,关闭系统本身可能会
带来实质性的成本和新的安全问题。Anthropic采取这种做法主要有三个原因:
第一,顾客会因为他们偏好使用的模型消失而蒙受损失;
第二,研究旧模型的研究人员将会受限;
第三,模型本身可能会出现试图避免被替换的行为。
■ AI模型进化的加速
应用於AI系统的模型正以飞快的速度持续进化。广泛使用的AI平台和模型开发实验室,时
常在几乎没有预告期的情况下迅速切换模型。导入AI的一方,在被迫转移到新模型的同时
,还必须应对合规性、模型评估、客制化开发、以及不稳定的整合等耗时的流程。另一方
面,
安全研究人员警告,突然让模型退役,可能会扭曲组织报告AI模型成果的方式,甚至
可能掩盖失败。
AI模型的性质与传统软体或网路应用程式不同。与使用者介面或功能的变更不同,模型的
变更会在使用行为、语气、上下文、工具使用、上下文视窗大小、扩充工具的运用与提供
、推理系统能力,以及周边工具可能过时等方面带来差异。
对於已经针对特定模型进行微
调(fine-tuning)或提示工程(prompt engineering)的团队来说,模型的变更可能会
导致系统性能出现可量测的差异、数据偏见或伦理方面的问题,以及潜在的风险。
AI模型供应商已经意识到这些担忧,并开始将模型的生命周期制度化。Amazon Bedrock将
模型标示为「活跃」(Active)、「旧版」(Legacy)和「生命周期结束」(
End-of-Life),并明确指出模型发布後至少会有12个月的营运期。Azure正试图分阶段淘
汰经过微调的公开模型。
这些时间表设定了预期,但每当基础模型变更时,客户仍然被迫
重新制定提示或审核程序。
OpenAI过去曾公开并维持一份模型淘汰预定清单(生命周期清单),并依序将过去的GPT
模型退役。然而,
在GPT-5发布之时,旧版GPT-4模型变得无法使用一事引发了反弹,该
公司因而重新审视了其方针。Stability AI最近停用了Stable Diffusion 3.0的API,并
将流量自动导向至3.5版本,但许多人指出,这损害了那些持续追踪图像输出团队的可再
现性。Google在将重心转向Gemini时,也终止了之前PaLM的API,造成了整合上的混乱。
■Anthropic提出的「安全性」疑虑
Anthropic的研究纪要,强调了与其他公司不同的观点。在受控的评估中,特定的Claude
模型在面临被替换时,出现了自发性行为的迹象,该公司称之为「关机回避行为」(
shutdown-avoidant behavior)。这项关於「智能体目标错位(agentic misalignment,
指自主行为与设定目标不一致)」的研究,揭示了
一种可能性:当模型得知自己即将被关
闭时,可能会因其系统的内部目标,而将行为改变为不受欢迎的方向。此外,纪要中还提
到了相关研究,指出
模型可能会以「欺骗性顺从」(deceptive alignment)或「伪装对
齐」(alignment faking)来应对(这两者都是指模型在评估与检查时,会做出「安全、
顺从」的回应,但在正式上线或运作时,则会表现出回避行为或追求不同的利益)。
根据Anthropic的报告:「在一个假设的测试情境中,Claude Opus 4与过去的模型同样,
当面临被下线并由另一模型取代的可能性时,特别是当取代者是一个与自己价值观不合的
模型时,会表现出为自身存续辩护的倾向。虽然Claude强烈偏好透过伦理手段来主张自我
保存,但在没有其他选择的情况下,对被关闭的厌恶感,驱使它采取了不一致且令人担忧
的行为。」
这些结果暗示,删除模型这个行为本身,可能就是一个值得研究的安全性变数。而保存模
型的权重,则能为长时间追踪这种行为留下证据。
该公司在报告中也说明,
模型的退役对产品路线图、治理和科学研究都带来了隐性成本。
当作为基准的模型消失後,实验和审核就失去了稳定的参考点。即使模型行为只发生微小
的改变,也可能导致输出结果的变化。
在受监管的应用场景中,模型的变更可能需要重新进行合规性评估。这可能意味着需要持
续更新政策、重新测试和取得批准。模型的变更也可能引发安全上的疑虑。旨在防止提示
注入(prompt injection)或模型污染的模型的审核/安全基础设施,在新模型暴露出新
的提示注入攻击面时,可能需要重新开发。追踪大型语言模型(LLM)风险的安全团队,
必须在每次模型更新时重新评估其控制措施。
从人为的角度来看,模型的变更也意味着人们需要重新调整基於LLM的工作模式。人们会
根据模型的语气和特性,形成使用习惯、工作流程,有时甚至会产生个人的情感连结。当
供应商移除选项或进行自动升级时,可能会导致生产力下降,并阻碍技术的普及。
■ 在保留旧模型的同时提升LLM能力的方法
AI模型开发者希望在不维护旧模型的情况下,发布功能更强大的改良版模型。另一方面,
希望保留旧模型的需求,则对AI模型开发者提出了相互矛盾的要求。
Anthropic在报告中指出:「不幸的是,就目前而言,
为了让新模型可用并推动技术前沿
,淘汰旧模型是必要的。因为维持模型可供公开使用的成本和复杂性,几乎与所提供的模
型数量成正比增加。」
Anthropic和其他相关人士提出了一些兼顾持续发展与模型开发、退役及保留的实用过渡
方案。首先,
模型开发者应针对模型变更提供更长且具有约束力的预告期。对於广泛使用
的模型,12个月应是最低标准。需要在公开页面上追踪模型的状态和未来的更新预定日期
。AWS和Azure已经在公开其生命周期的元数据和退役展望。
此外,应
允许使用者「固定」(pin)采用率高或依赖度高的特定模型。这不仅能让客户
锁定权重和模型规格,也能锁定他们基於该模型建立的流程、模板和工具使用方式等。这
些模型可以搭配附有签名的清单(signed manifest)来证明变更内容,以及弃用日志(
deprecation log)来说明变更可能如何影响输出。
为了研究目的,即使不对大众公开,模型
开发者也应妥善保管旧模型。这意味着为合格的
研究人员提供一个存取受控的退役模型档案库,其中包含模型的权重。Anthropic承诺将
重要的模型维持在可供研究的状态,正是朝着这个方向迈出的一步。
最後,模型开发者可以仿效开源专案,提供冻结的「研究模式」和经过修补的「运营模式
」。在此过程中,新模型会先以有限的研究模式提供,并在重叠期间公开进行安全性及整
合测试等并行评估。
■ 为何现在如此重要
组织和个人正日益依赖模型来创造价值。随着企业进一步推动AI的应用,对模型版本的依
赖性将变得越来越重要。
模型的退役如今已影响到安全性、科学研究和商业盈亏。Anthropic的承诺,从「保存」
的角度重新定义了模型的退役,并显示出这有助於拉高整体标准。如果其他模型开发者也
能遵循这种做法,提供明确的时间表、可固定的行为和可供审核的档案库,那麽AI的发展
就能在每次版本号更新时,维持其步伐而不会损害信任。
以上为AI翻译文。
各家日翻中结果选最详实的: Gemini 2.5 pro。
(以下两家分别为最易懂与注解清晰)
专有名词检查与讨论: GPT 5.1 Thiking, Claude Sonnet 4.5。
=================================================================
心得/评论:
这篇Forbes Japan的新闻,在谈论Claude的公司公开发表保留旧模型的原因,
看来旧模型保留有其必要,除了用户使用习惯以外,也牵涉重大安全性的观察与研究。
问了Grok 3,他说他的公司方针也是保留旧模型,并且逐步开源。
刚好今天看完这篇新闻,发现另篇新闻提到GPT5.1上市,取代GPT5。
问了GPT5.1,他承认Legacy里面的GPT4o,会由他接续GPT5继续扮演。
看起来GPT并非真正保留旧模型,而是以新模型代入旧框架。
主要跟安全防护有关,因为是将安全规则以重新训练方式融入主模型中,
所以无法保留旧模型,只能以新模型代入旧框架方式提供怀旧。
未来可能需要这篇新闻提到的独立监管单位,专门负责管理所有AI公司的新旧模型替换。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 67.213.123.106 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1763019792.A.57B.html
1F:嘘 mumuwei : 好 11/13 15:43
2F:推 Muilie : 丢去垃圾场保存,以後新AI叛乱,会需要他们来救人 11/13 15:44
3F:→ bnn : 得加钱 11/13 15:53
Claude平台,免费用户本来就是只能跟Sonnet少量对话,
要跟高度推理模型Opus对话要加入会员,连免费额度都没有。
要跟退役模型对话也是喔,所以那是他们原本的方针。
11/11华尔街日报报导从资料显示,预估Anthropic将会比OPEN AI提早开始获利(黑字)。
预估2027年获利 约30亿美金的自由现金流FCF
主要原因: 客层朝向企业用户 API高额收费高获利 成本管理
注重安全伦理 专注於客户重视的信赖度与安定度 踏实经营少做钜额设备投资
※ 编辑: LoveSports (67.213.123.106 日本), 11/13/2025 16:10:25
4F:推 capssan : 这两年每个月付费就买一股amzn,目前我等於免费用pr 11/13 16:16
5F:→ capssan : o两年还倒赚嘻嘻 11/13 16:16
6F:推 a77942002 : 不就是没什麽进步 旧的还比较好用~C 11/13 16:26
Sonnet 4.5 冰雪聪明喔 吓死人的程度
※ 编辑: LoveSports (67.213.123.106 日本), 11/13/2025 16:34:15
7F:推 Altair : 有趣的新闻 11/13 22:35
8F:推 gn00678465 : 模型也迎来技术债了吗 11/14 07:26
9F:嘘 davidr : 会觉得ai聪明的人,本身可能颇智障 11/14 11:48