作者curiserosi ()
看板Stock
标题Re: [新闻] 甲骨文股价暴跌超10%!订单积压越来越多 「烧钱」砸AI
时间Sun Dec 14 00:18:38 2025
: 没关系,偷偷告诉你一个Insight
: 今年NeurIPS 2025有一篇超重量级的论文
: Introducing Nested Learning
: 这篇文论的重要程度不亚於Attention is all you need
: 甚至可以说有过之而无不及
: Transfomer架构只是发明了蒸气机
: Nested Learning这篇论文,简直就是热力学定律的等级了
: 基本上等於宣告Transformer架构过时了(因为是一种扁平和单一频率的特例)
: 未来三到五年,全面转向Nested Learning的时代
: 以下文字是我先写一版,再请Gemini润稿的洞察
: --------这是AI润稿的分隔线--------
: 当前 AI 发展正受制於一道物理铁律:记忆体墙(Memory Wall)。传统 Transformer 架
: 构依赖 KV Cache 维持上下文,这本质上是一种「以频宽换取长度」的低效策略。随
: 着上下文长度 T 的增加,Attention 机制的计算复杂度呈 O(T^2) 增长,而推论时
: 的记忆体搬运量呈 O(T) 线性增长。在 HBM 频宽成长远落後於 GPU 算力的现状下,这
: 种依赖储存大量未经压缩原始状态的架构,注定会从 Compute-Bound 跌落至 IO-Bound
: 的深渊。
: Nested Learning 的出现,透过对记忆与推理本质的重新理解,为此困境带来了典范转移
: 级别的解答。
: 其核心突破在於「推论即训练」的数学创新——Nested Learning 揭示了
: Attention 机制在本质上等价於单步的梯度下降更新。基於此,HOPE 架构不再被动地检
: 索历史,而是主动将资讯即时压缩为模型权重。这将原本受限於频宽的检索问题,转化为
: 仅需固定算力的状态更新问题,从根本上粉碎了记忆体墙。
: 在应用层面,这种架构彻底重塑了 AI 的个性化能力。HOPE 的动态记忆机制(Fast
: Weights) 不再依赖传统模型那种外挂式的提示词(Prompting)来「模拟」短期记忆,
: 而是透过梯度更新,将使用者的偏好与习惯即时「内化」为模型参数的一部分。这不
: 仅在工程上根除了重复处理提示词的算力浪费,更在体验上创造出具备「演化能力」的专
: 属模型,让 AI 随着每一次互动变得更懂你。
: 这一变革预示着当前 HBM 需求高速增长的趋势将显着放缓,技术改革的方向将转向针对
: 不同更新层级的硬体特化:
: 边缘装置 (Edge): 承载高频更新的快层,将不再单纯追求频宽,而是转向追求大容量
: SRAM 与极致的能效比,以支撑毫秒级的状态写入与计算。
: 云端中心 (Cloud): 承载低频更新的慢层,为了处理更复杂的逻辑推理与庞大的智能结
: 构,将演化出针对非欧几何的特化运算单元,以在双曲空间中实现更高维度的高效推理。
: ----------这是AI润稿的分隔线-----------
: 你各位要小心HBM市场在2026年末的崩溃反转
: 短期因为各种高频信号,还是会持续推高HBM的市场价格
: 然後记忆体因为这些需求讯号,会疯狂扩厂
: 等到「基於超大KV Cache的Transfomer架构」路径依赖崩溃
: 新架构全面转向HOPE的时侯
: 嘻嘻 刺激罗~~~
小弟不才,关於技术的部份看不懂
但还是想请教
1.现有transfomer架构因为需要死背硬记,所以需要超大规模记忆体
来对应长文本、图像,甚至影片,到长影片所需的记忆体规模已经
不具备实际可行性或是没有经济价值
这部分Nested Learning具备绝对优势,面对长文本、图像,甚至长影片
对记忆体的需求成长可控
2.Nested Learning具备持续学习的能力,这点是transformer不具备的
基於以上两点,即使现在还有很多缺点,未来也绝对有Nested Learning
的一席之地(因为transformer在这些地方的劣势是结构性的,无法改变)
请问我这理解有没有哪边有问题?
如果未来Nested Learning大规模布署,在产业面上的影响
1.SRAM的需求会大幅增加,Nested Learning需要的不是大量的HBM来记忆
而是需要能快速响应的SRAM来对应CMS
2.算力的需求暴增,相比现在的transformer是卡在记忆体数量与频宽
Nested Learning因为需要Backward Pass,需要的是数倍的算力
3.由上面两点推测,封装需求也会改变,HBM+GPU的封装需求成长减缓
如CoWoS,相对的interposer、载板也不需要那麽大,所以这些产业
成长会放缓
我脑容量不够,这是我想像力的极限了
什麽双曲空间已经超出我认知范围
不过还是想问一下我这样理解有没有什麽问题
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.229.23.5 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1765642720.A.94D.html
1F:→ water6 : 我是觉得….这都不知道几年後才会发生,多关注就好 12/14 00:22
2F:→ water6 : ,等真的发酵要上车都还来得及 12/14 00:22
3F:→ offstage : +1。就算五年前就知道去美元化是趋势,但太早买黄金 12/14 00:23
4F:→ offstage : 会被套很久。 12/14 00:23
5F:→ water6 : 像辉达从23年q2开始爆发(2x%)那天到现在最高涨了4 12/14 00:24
6F:→ water6 : 倍多了 12/14 00:24
7F:→ bnn : 在这个弄出来ASIC之前 力大砖飞比较快可以上线 12/14 00:25
8F:→ MizPerfect : 想太多了辉达 DLSS 2/3/3.5 所用的CNN架构 12/14 00:44
9F:→ MizPerfect : 从RTX 20/30/40都在用CNN, 50才刚转向 Transformer 12/14 00:45
10F:→ TaiwanUp : NL是抽象架构 Transformer是实例 不同层级不可比 12/14 00:46
11F:→ MizPerfect : google的tpu多久才能上线 Nested Learning ? 12/14 00:46
12F:→ MizPerfect : 论文到实际运用差距还远的 12/14 00:47
13F:→ TaiwanUp : 要投就是Google 但其他家也有可能先实作出来 12/14 00:48
14F:推 xxgogg : 可以买QQQ就好惹吧0.0///这些中文我完全看不懂... 12/14 00:51
15F:→ MizPerfect : 字节早就用 transformer 做出 ai agent 了 12/14 00:53
16F:→ TaiwanUp : 板上几个大神讲的像是Google基本上领先1年半 12/14 00:53
17F:→ MizPerfect : 不如投资 美股 KHH 支持字节翻桌全世界 12/14 00:53
18F:→ MizPerfect : goog的gemini在於其成本优势,没有Tpu自己开发 12/14 00:56
19F:→ MizPerfect : 可能陷入跟甲骨文一样的境地 12/14 00:57
20F:推 yutaka28 : SRAM相关影响的公司有那些 12/14 01:00
21F:推 josephpu : 重点不在预测,而是观察,提前理解只是帮助你在趋 12/14 01:09
22F:→ josephpu : 势来的时候能即时看见并且知道要买什麽。 12/14 01:09
23F:→ TaiwanUp : 辉达也用Tile近似TPU 这一年半的领先可能不够 12/14 01:09
24F:→ josephpu : 你真的要先压那就先压共同点,像是sram需求上升, 12/14 01:21
25F:→ josephpu : 那SoIC、TSV、Hybrid bonding是不是有机会?但我真 12/14 01:21
26F:→ josephpu : 的不建议去压3~5年的大趋势改变,真的发酵的时候在 12/14 01:21
27F:→ josephpu : 上车绝对来得及,提前上车你不确定要蹲多久,甚至 12/14 01:21
28F:→ josephpu : 最後预测错误 12/14 01:21
29F:→ TaiwanUp : 买0052大概没问题 五年报酬率比QQQ强 12/14 01:24