作者minazukimaya (水无月真夜)
看板Stock
标题Re: [新闻] 甲骨文股价暴跌超10%!订单积压越来越多 「烧钱」砸AI
时间Sat Dec 13 03:06:12 2025
※ 引述《LDPC (Channel Coding)》之铭言:
: @@我是不知道其他世界线 我们公司有引入各种AI Tool
: 比方说在slack 我要开一个data bucket权限 (公司机密资料 权限最高级那种)
: 来测试我新模型 然後我就slack打serval (IT机器人公司方案)
: 他就开始一步步核对 然後最後一步还跟我说有各种data access 时间限制
: 然後就帮我设定好 然後最一关签呈就是人类IT 这些步骤效率超越传统IT很多
: 随时都可以叫IT机器人帮我处理各种事情 前置作业大量弄好 只要一两个人类做最後确认
: 同样的 我在openai企业版(有专门设计给企业版) 这个整合内部公司所有文件资料
: 有一次我要设计模型 我就问这方面模型有谁设计过 结果他就拉出过去
: 三年各种历史设计报个 还有各种benchmark 因为openai企业版可以整合公司资料库
: 一下子我就能站在过去历史巨人 不需要去问哪个部门之前干过啥
: ai coding现在最大用途就是写测试工具 真他x的好用 设计模型完之後 叫ai帮我写
: script去做下游端大量测试
: 其他ai tool还有infenrece端可以直接调用prompt和观察模型反应 以及notion
: 这种线上报告也引用自家ai tool 快速搜寻资料都挺方便
: 然後我们自己设计给下游顾客的ai tool 如果顾客说他工作时间没缩短
: 那我们就拿不下订单 现在垂直整合领域已经杀到红血 每个tool 越盖越先进QQ
: 我好想躺平 已经每天工时飙到16hr....... 改天再写写去NeurIPS看到的迹象
: Hinton/Jeff Dean/Yoshua Bengio/何凯明 任何你知道大神都去这今年NeurIPS
: 结论就是大厂真的要干架了 Google DeepMind新政策 禁止发paper
: QQ 不发paper延伸意义就是 现在开始 狗家不会在开放他们自家模型设计秘密
: 目标就是要胖揍开放爱和其他竞争者...
: 目前狗家大量研究员生气中 这次还有很多菁英邀请制度线下聚会 跑去蹭了NV/META
: 看到一堆海外的博士生在现场跪求进去Meta 线下聚会.......QQ
: 据说开放爱线下聚会是最难进去的 连地点和门路在哪都不知 只能被动邀请
没关系,偷偷告诉你一个Insight
今年NeurIPS 2025有一篇超重量级的论文
Introducing Nested Learning
这篇文论的重要程度不亚於Attention is all you need
甚至可以说有过之而无不及
Transfomer架构只是发明了蒸气机
Nested Learning这篇论文,简直就是热力学定律的等级了
基本上等於宣告Transformer架构过时了(因为是一种扁平和单一频率的特例)
未来三到五年,全面转向Nested Learning的时代
以下文字是我先写一版,再请Gemini润稿的洞察
--------这是AI润稿的分隔线--------
当前 AI 发展正受制於一道物理铁律:记忆体墙(Memory Wall)。传统 Transformer 架
构依赖 KV Cache 维持上下文,这本质上是一种「以频宽换取长度」的低效策略。随
着上下文长度 T 的增加,Attention 机制的计算复杂度呈 O(T^2) 增长,而推论时
的记忆体搬运量呈 O(T) 线性增长。在 HBM 频宽成长远落後於 GPU 算力的现状下,这
种依赖储存大量未经压缩原始状态的架构,注定会从 Compute-Bound 跌落至 IO-Bound
的深渊。
Nested Learning 的出现,透过对记忆与推理本质的重新理解,为此困境带来了典范转移
级别的解答。
其核心突破在於「推论即训练」的数学创新——Nested Learning 揭示了
Attention 机制在本质上等价於单步的梯度下降更新。基於此,HOPE 架构不再被动地检
索历史,而是主动将资讯即时压缩为模型权重。这将原本受限於频宽的检索问题,转化为
仅需固定算力的状态更新问题,从根本上粉碎了记忆体墙。
在应用层面,这种架构彻底重塑了 AI 的个性化能力。HOPE 的动态记忆机制(Fast
Weights) 不再依赖传统模型那种外挂式的提示词(Prompting)来「模拟」短期记忆,
而是透过梯度更新,将使用者的偏好与习惯即时「内化」为模型参数的一部分。这不
仅在工程上根除了重复处理提示词的算力浪费,更在体验上创造出具备「演化能力」的专
属模型,让 AI 随着每一次互动变得更懂你。
这一变革预示着当前 HBM 需求高速增长的趋势将显着放缓,技术改革的方向将转向针对
不同更新层级的硬体特化:
边缘装置 (Edge): 承载高频更新的快层,将不再单纯追求频宽,而是转向追求大容量
SRAM 与极致的能效比,以支撑毫秒级的状态写入与计算。
云端中心 (Cloud): 承载低频更新的慢层,为了处理更复杂的逻辑推理与庞大的智能结
构,将演化出针对非欧几何的特化运算单元,以在双曲空间中实现更高维度的高效推理。
----------这是AI润稿的分隔线-----------
你各位要小心HBM市场在2026年末的崩溃反转
短期因为各种高频信号,还是会持续推高HBM的市场价格
然後记忆体因为这些需求讯号,会疯狂扩厂
等到「基於超大KV Cache的Transfomer架构」路径依赖崩溃
新架构全面转向HOPE的时侯
嘻嘻 刺激罗~~~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 146.70.205.172 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1765566374.A.FED.html
1F:推 ksjr : 因为这新架构 google是不是又要重新设计TPU拉? 12/13 03:10
遥遥领先,狗家的硬体和计算架构和前沿论文研究,具有高度的一致性
互相加成,互相协同,full-stack优化
等到其他大厂醒悟过来,发现Nested learning才是正确方向
决定要放弃Transfomer时,狗家已经领先一年到一年半了
不信你丢给ai问,可以多问几间互相比对
当然,要用正确的方式问才会得到正确的答案
你要先有足够的背景知识才能识破关键点,问出最重要的问题
问问题的能力,大概就是新时代最重要的能力了XD
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 03:16:47
2F:嘘 iecju520 : 我看你根本不懂AI吧... 12/13 03:22
3F:推 rayray0410 : 看到这ID就先推 12/13 03:24
4F:推 L1ON : 我在看openai倒数计时 12/13 03:27
5F:推 ccneptunecc : 放弃transformer架构是否意味着需要更多GPU? 12/13 03:41
如果是以「当前同等能力模型」作为基准 答案是不会
因为Transformer+KV Cache是一种很低效的推论模型
低密度的无压缩资讯储存+重覆计算AttentionMap
导致超大量的能源浪费(算力和资料搬运成本两者都是)
Nested Learning使用正确的层级特化结构的话 在推论期可以省下五到十倍的能源消耗
不过,架构优化和模型能力提升是两步走的
在架构优化释放出来的算力,最终会导致模型继续依照Scaling Law扩大
所以结果是「省了十倍的能耗,那模型就能再大十倍」(这不是正确的数学,只是比喻)
算力需求永远存在,因为文明的本质就是计算
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 03:55:45
6F:推 kuku951 : 需要更多GPU就需要更多记忆体… 12/13 03:55
需要从更细致的视角去切入
SRAM也是记忆元件 HBM也是 Host DRAM(LPDDR)也是
计算也一样 tensor core是计算元件 systolic array也是计算元件
近存运算也是计算元件
所以「在哪里计算,在哪里储存,如何搬运资料」从来就不是一个单一命题
一切都要从架构与系统级的视角下去拆解,才会根据需求得出一个答案
这也是为什麽边缘层和云端层会发展出不同的计算架构 因为需求不同
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 03:59:39
7F:推 ng101281 : 一根戳破泡沫的针来了 12/13 04:03
8F:推 kuku951 : 感谢分享,这东西真的挺牛的,说不定这会是未来AGI 12/13 04:08
9F:→ kuku951 : 的先驱,顺便回覆楼上,如果这东西是真的搞得出来, 12/13 04:08
10F:→ kuku951 : 那就是戳破那些说AI泡沫的人 12/13 04:08
11F:推 roseritter : 硬体现实有余裕的话,原本现在吹的天文级算力需求很 12/13 04:59
12F:→ roseritter : 难盖出来 12/13 04:59
13F:→ roseritter : 改新玩法就能现实点 12/13 04:59
研究(Model Refinement)时代和扩增(Scaling)时代是轮流出现的
Ilya Sutskever最近有一篇访谈可以看看
正如他所说,接下来时代巨轮要转回模型改进了
不过,等到模型改进得差不多,又会重启扩增时代
这两个时代的过度也是渐变的,不是一刀切
「文明的本质就是计算」
你如果看不懂这一大堆Big Tech谁会赢,那也没差
买2330 永远是对的
14F:推 tigerzz3 : 好久没看到mina大 预计何时开捡?还是保守看? 12/13 05:07
感谢GOOG爆喷一波,现在YTD 90%了(真是出乎我意料..11月初时我本来已经躺平了)
https://i.imgur.com/NHJP572.png
不过我在11月底卖掉一部份GOOG捡了NVDA,作整体部位Rebalance
然後今天就吃了一根超~~~级大的,脚麻了,哭啊
15F:推 shead1983 : 这篇好惊人,感谢高高手分享内容,读完後的感想是 12/13 05:08
16F:→ shead1983 : 美光全力冲刺HBM,是不是惨惹? 12/13 05:08
嘻嘻 其实这篇只是我得到的洞察的一小角而已
真正重要的我没说,不过这篇其实有很多引子
比方说在模型最深层(最慢层),需要非欧几何的双曲空间语义空间
(提示: Transfomer的语义空间是平面的)
这在Nested Learning论文里是完全没提的,是另几篇资讯几何学的研究
17F:推 aegis43210 : 现在的确是有AI泡沫,但目前要看是啤酒先装满或是泡 12/13 05:10
18F:→ aegis43210 : 沫先消掉 12/13 05:10
19F:→ aegis43210 : 不过边缘运算中,未来NAND看起来会是最缺的 12/13 05:13
考虑一个五层结构,最浅两层(L1~L2)在边缘,三层(L3~L5)在云端
你猜猜看L1需要多少参数量? 答案可能出乎你意料的小
完全不需要放在NAND
而且从最快层的「权重即时更新」需求来看,也不能可能放在NAND
20F:推 tigerzz3 : 今天这种盘 狗家不到1%真的太扯 12/13 05:14
21F:推 kuku951 : 冲刺HBM怎麽会惨… 这个做法还真有可能解决HBM的困 12/13 05:15
22F:→ kuku951 : 境 然後HBM的优势在於频宽跟速度 一定是未来最需要 12/13 05:15
23F:→ kuku951 : 的 12/13 05:15
HBM的频宽和速度很重要 这叙述没问题
不过HBM的总需求是容量(Capcity)决定的
猜猜看如果把最深层的语义空间从平面换成双曲,参数量会变成多少?
有论文可以查的,查查看
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 05:44:36
24F:推 flyawayla : 花一整个早上快速扫完,看起来运算没减少反而更多, 12/13 05:53
25F:→ flyawayla : 不同频率互相独立,不独立我猜就要用记忆体存参数, 12/13 05:53
26F:→ flyawayla : 也没有看到讨论训练速度,通常没有就表示一定更花时 12/13 05:53
27F:→ flyawayla : 间,心得是中立,毕竟都发一个月了,可以再等等看其 12/13 05:53
28F:→ flyawayla : 他团队有没有跟上 12/13 05:53
我觉得你关注错重点,HOPE架构的工程实作不是论文中最重要的部份
数学表达才是,这篇论文就算把HOPE架构整个去掉
纯理论的部份就有相当於热力学定律的价值
这代表一种更接近「知识、记忆、推理」的物理本质的理论
从而让各大模型研究商能在巢状学习的理论范式下,自由去探索各自的工程实现
类比於你有了热力学定律之後,各种形式的热机都有理论依据了
你看我前面对於未来模型的叙述(云边协同、不同语义空间的五层结构)
这和论文中简化过的HOPE模型压根就不是一回事对吧
因为HOPE模型的设计只是要作为论文的实证用途
而不是真正具备下一代模型的「工程可行性」&「商业可行性」的实作
至於下一代实作「可能会长什麽样子」
那自然是不会在这里解释了...
反正即使我提了 99.99%的股板众也是鸭子听雷啊
29F:推 waitrop : 当你看到论文的时候,早就有特定的TPU xpu 了 12/13 06:03
狗家员工内线消息
我要是真信了 你就是在内线交易罗!!!
就事论事 TPUv7没有明显针对Nested learning的痛点去优化
(当然也没有明显不能跑的理由,依然可以跑)
至於v8之後怎麽设计,现在也没有公开消息
比起云端,我觉得现在是边缘的计算架构没跟上Nested Learning的需求
30F:推 Morphee : 先问一个问题 2017年 attention 出来之後 12/13 06:07
31F:→ Morphee : 你是否从技术押注中赚超过几个亿? 如果没有 12/13 06:08
有 嘻嘻
你再回去翻翻我2019年谈AI革命的文章
当时也是一样,完全没有人看懂我说什麽
32F:→ Morphee : 那 Nested Learning 也只是一个数据很普的实验 12/13 06:09
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 06:11:00
33F:→ newwu : 想想这运用到大规模,多客户的时候,这真的会让记 12/13 06:21
34F:→ newwu : 忆体减少吗 12/13 06:21
35F:→ newwu : *会让记忆体使用量减少吗? 12/13 06:21
36F:推 waitrop : 边缘计算也会跟上nested learning ,也有相对应的T 12/13 06:26
37F:→ waitrop : PU xpu 12/13 06:26
38F:推 waitrop : 会让记忆体用量增加,但是不是hbm ,不能再多说了 12/13 06:28
如果根据手机上最快层的即时更新需求去推导
很明显是要SRAM,而且不能和L1 Cache共用
既然要能放进整个最快层的权重,即使以INT4/INT8高度压缩,也需要很大一块SRAM
考虑到除了慢权重(预训练参数)之外还要放快权重(记忆状态)
加一加要个2~4MB的独立SRAM是跑不掉的
39F:推 fisher6879 : 呱呱呱,数学不会背叛我,不会就是不会,不过AI推论 12/13 06:29
40F:→ fisher6879 : 的HBM需求下滑结论还是看得懂的,感谢mina大分享, 12/13 06:29
41F:→ fisher6879 : 天网是不是又加速啦?啾命Rrrr 12/13 06:29
真der 天网近了 悔改吧
42F:推 googstar : 非goog的asic又要准备被辉达gpu揍烂了 改架构最能 12/13 06:31
43F:→ googstar : 适应的就辉达 12/13 06:32
44F:推 losage : 你应该要请open润稿,g家唯一缺点就是不会说人话 12/13 06:33
我故意的 实际上Gemini Canvas写小作文可以调长度
调越长它会试着扩写 解释的更清楚 但是我偏不 嘻嘻
说真的,看不懂的人,就把我整篇文字+NL的论文都喂给AI
然後再问AI就好啦,时代都是这样了,要善用AI啊
45F:推 steven853 : 所以结论是allin asic? 12/13 06:34
46F:推 waitrop : 没错,gb300的Rubin 三小的就是为了解决memory wal 12/13 06:34
47F:→ waitrop : l ,这问题业界都知道,但是愿意改架构改算法的公 12/13 06:34
48F:→ waitrop : 司,也就只有谷歌跟辉达 12/13 06:34
49F:推 Ipluck : 回过头看M大2019第一篇文真的是含金量十足 当时 12/13 06:36
50F:→ Ipluck : 就看的这麽彻底真的厉害 12/13 06:36
一般来说我是看未来3~5年的,再远的我也看不到了
所以2019那篇讲的是2019~2024的AI革命
这篇讲的是2025~2030「通往AGI之路」
51F:推 bunjie : 先推在看 12/13 06:37
52F:推 audic : 核心权重会随互动漂移=不可重现、不可审计、极易被 12/13 06:38
53F:→ audic : 误导,现实系统根本不敢上线,顶多停在论文 12/13 06:38
回到上述的五层系统
你完全可以把最深层的(物理定律、道德价值、信念)基底层
静态权重完全锁定不更新,来防止恶意注入
论文提示的是一种数学架构,你理解了整个数学架构的话
实务上你完全有各种工程实作的细节去弥合你的需求
当然我完全同意这种动态学习的系统,在正式上线前一定要经过严格的对齐测试
不过这不会构成「永远不会有能够动态学习的系统」的理由
54F:推 tsubasawolfy: 这名字取得好…看到就大概知道他要干嘛 12/13 06:42
55F:推 ksjr : 有拉今天下午当薪水小偷时有问copilot 不过这个也发 12/13 06:44
56F:推 elliotpepe : 先推一个,未来再回顾 12/13 06:44
57F:→ ksjr : nested learning十一月初就发了 好像股价已反应? 12/13 06:45
58F:推 Morphee : 云端跟edge会重分配吧 为啥会乱飘 12/13 06:47
看你每一层的更新频率怎麽设定
再以五层模型举例的话
云端的L3可能是event-driven更新、L4可能是每天更新一次
L5就如上述所说,最好是不要乱更新
59F:推 googstar : 真的通往agi只会让整个ai产业算力需求持续飙升? 12/13 06:53
60F:→ googstar : 看来辉达真的太便宜 12/13 06:54
买2330 永远正确
铁打的Foundry,流水的Design House
61F:推 guanting886 : 感谢分享 12/13 06:57
62F:推 afflic : 2330有机会变成全球市值前三吗 12/13 06:58
63F:推 Morphee : AMD效率转折受益者/Apple边缘语义既得利益者 12/13 06:58
爽到Apple 躺平到最後天上掉馅饼 赛道重置
抱紧GOOG大腿就赢那些花了几百亿美金看别人车尾灯的
64F:推 breathair : 我只後悔都看对了,转仓太慢还一堆QQQ,XD不过至少 12/13 06:59
65F:→ breathair : 早一步清掉TSM跟NVDA 12/13 06:59
66F:推 tomtowin : 重点是SRAM,就是买2330,感谢分享 12/13 07:00
67F:推 deltawai : 感谢 12/13 07:01
68F:推 chives465 : 推M大,请问除了TSM,AVGO会建议买入吗? 12/13 07:04
69F:推 Morphee : 想了一下 Hyperbolic若起来 NV还是比AMD有利 12/13 07:04
70F:推 qwe78971 : 股票不讲这个 所以短期内没用 到时候早就换股了 12/13 07:06
71F:→ Morphee : 看软体是否续补topology-aware跟memory-flow API 12/13 07:08
不过,最深层语义改用双曲,这可能是这篇文章里最弱的推定
因为用现有的硬体算双曲空间,那个运算量之惊人
光一个庞加莱距离就比欧几里德距离高不止十倍运算量了
所以在专算双曲的特化硬体内建之前
很有可能就是平面或球面加减用了
「切换深层语义空间」本质上就是「计算量 vs 记忆体容量/频宽」的交换与权衡
虽然最终一定是会切到双曲,但是这个改变要几年发生,很难预估
快的话可能三五年,慢的话可能十年
72F:推 billionerx10: 看来自研asic可能会是一条非常不明智的路 架构一改 12/13 07:16
73F:→ billionerx10: 整个无用 12/13 07:16
74F:推 hduek153 : 分享推 12/13 07:18
75F:推 kottas : 好文 12/13 07:19
76F:推 jay412210 : 我2330是最大赢家 12/13 07:24
77F:推 abyssa1 : 要放SRAM 那就回到CCW 说的 产能远远不够 12/13 07:28
边缘需要大SRAM,云端不需要
至於边缘什麽时侯真正爆发
那当然是要等Nested Learning的动态学习模型成为主流才行
毕竟单层的Transfomer是不可能在边缘装置跑的
当然,如果说Nested Learning的最快层实际上跑Transformer,那是有可能的
不过在这种情况下,L1层跑Transfomer+滑动窗口KV Cache(模拟工作记忆)
比起直插一个固定大小的RNN作为工作记忆,并没有特别的优势
总之,要看到边缘装置爆发
大概会是2027~28之後的增长点了
78F:推 GinginDenSha: 推,呆湾房子买起来,呆民财富持续喷射 12/13 07:30
79F:推 littlelaba : 一句话 做多还做空啦 12/13 07:32
80F:推 whyhsu : 好 12/13 07:35
81F:推 suzuke : Nested Learning 推论即训练听起来很美好,但是你 12/13 07:39
82F:→ suzuke : 要知道现在的推论只要做「前向传播 (Forward Pass) 12/13 07:39
83F:→ suzuke : 」,运算量相对小。Nested Learning在推论时,内部 12/13 07:39
84F:→ suzuke : 还要做反向传播 (Backward Pass)或梯度更新,每生 12/13 07:39
85F:→ suzuke : 成一个字,计算量可能变成原本的 2-3 倍。再来训练 12/13 07:39
86F:→ suzuke : 稳定性极差,也还不能平行化,这些问题没解决前, 12/13 07:39
87F:→ suzuke : 它想要成为LLM的圣杯取代Transformers 还太早 12/13 07:39
你这属於论文没看清楚,或是直接丢AI叫它生答案的结果
再看清楚一点,HOPE架构的最快层有作反向传播吗??
在一个参数量很小、只处理简单语义连结的最快层,直接一个DGD作掉了
要请AI读论文,也要有足够的背景知识,不然你根本不知道关键在哪
AI随便说你随便信
88F:推 Morphee : 从Attention到ChatGPT也差不多五年 合理的时间尺度 12/13 07:40
89F:推 gcarrot : 我也是11月底清了GOOG, 买入NVDA, 现在有点痛.. 12/13 07:45
都是ORCL的错 救救NVDA 救救
90F:推 Morphee : 楼上你讲得也是我问的问题 2017年你看到Attention 12/13 07:45
91F:→ Morphee : 楼楼上才对 也可以说出类似的论点 Attention要成为 12/13 07:45
92F:推 Morphee : AI圣杯还早 NLP还不成熟等等 12/13 07:48
任何洞见从技术前沿传导到普罗大众都要时间
这我五年前讲AI革命时就说过一次了
问题是,当一个洞见变成新闻每天狂报的时侯,早就失去交易价值了
93F:推 n555123 : 推 12/13 07:48
94F:推 mamorui : 菇菇之前有提过,今年下半年正式进入圣杯终战(我 12/13 07:51
95F:→ mamorui : 个人预计三年时间) ,市场通常第二年上半场会开始 12/13 07:51
96F:→ mamorui : 酝酿分胜负的前奏 12/13 07:51
97F:推 aspirev3 : 边缘装置爆发 还跟七巨头有关吗 12/13 07:51
98F:推 jimjim951357: 感谢分享 12/13 07:52
99F:推 ejnfu : 所以要买哪支? Google NVDA都已有了 12/13 07:52
100F:嘘 kkes0001 : 搞笑,革命性论文要多少有多少,重点是实作,trans 12/13 07:52
101F:→ kkes0001 : former 到llm 中间隔多久你知道吗 12/13 07:52
102F:→ kkes0001 : 在这边留个言当纪录,几个月後再来看看肯定还是原 12/13 07:52
103F:→ kkes0001 : 样 12/13 07:52
原文就跟你说三到五年的大趋势了(摊手)
至於知道这样的技术趋势 要怎麽转成短期的获利
嘻嘻 不教你
104F:推 overpolo : 真的感觉天网近了... 12/13 07:54
105F:推 timtdsas : 真股板女神推推 12/13 07:55
106F:推 Morphee : Attention/Transformer上位速度算非常快了 12/13 07:56
107F:→ Morphee : 但是还是对投资技术的慧眼要求很高 敢在2022年底前 12/13 07:58
108F:→ Morphee : 重押的 还是有一个很强的嗅觉 12/13 07:58
109F:推 breathair : 听起来,GOOG,AVGO,TSM,AAPL是不错的组合? 12/13 08:01
110F:→ lokagh : 这种突破表示未来可降低ai电力需求? 12/13 08:01
解决模型架构的能源效率,只会导致更快的Scaling Law,更早的超人工智能时间表
电力需求要下降,这是不可能的
因为「文明的本质就是计算」
这九个字其实是资讯密度最高的洞察,可以解压缩成十万字以上的文章
只是你要会用正确的方式解压缩
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 08:05:36
111F:推 Morphee : 现在比较烦恼是谷歌有Attn论文被OpenAI反超的经验 12/13 08:04
112F:→ Morphee : 上头可能不准发有料的文章了 12/13 08:05
113F:嘘 kkes0001 : 那只能说你要嘛不是这个学术界的要嘛AI顶会论文看 12/13 08:08
114F:→ kkes0001 : 少了,革命性论文说多不多,说少也不少,但真正能 12/13 08:08
115F:→ kkes0001 : 走出实用这道坎的是少之又少 12/13 08:08
116F:推 dodobaho : M大看坏记忆体? 12/13 08:09
117F:推 jacky5946 : 谢谢大神分享乾货 12/13 08:09
118F:推 darkangel119: 想到发明蓝莓机的电影 黑莓 将资料压缩让通讯塔的 12/13 08:09
119F:→ darkangel119: 乘载量暴增 12/13 08:09
120F:推 joe2 : 论文啊….个人是不信 12/13 08:09
121F:推 breathair : 听起来懒人重压TSM无敌XD 12/13 08:11
122F:推 Morphee : 应该是说资本投入的方向性 崁很多阿 理论 实验 工程 12/13 08:12
123F:→ Morphee : 不是看几篇论文冲过去单押 方向感阿 12/13 08:13
124F:推 loopdiuretic: 先推不然别人以为我看不懂 12/13 08:15
125F:推 qscNERO : 推 谢谢分享 12/13 08:19
126F:推 pc007ya : 神 感谢分享,NVDA盘两个月还下跌哭了 2330 GUC放 12/13 08:21
127F:→ pc007ya : 抽屉传家了 12/13 08:21
128F:推 beavertail97: 所以要出清NVDA的意思? 12/13 08:22
129F:推 AndyMAX : 出清蒜粒小队 12/13 08:28
130F:推 lovealgebra : 习近平要统治世界了 12/13 08:30
131F:推 calqlus : mina桑都修过来了...大盘真的牙败了... 12/13 08:32
132F:推 believefate : 结论 还可以炒股到2026 没事 12/13 08:36
133F:推 FireStarman : 作者都买NVDA了还有人说出清NVDA? 12/13 08:40
134F:推 GX90160SS : 绩效跟鬼一样 12/13 08:41
135F:推 mudmud : Entropy Control 12/13 08:41
136F:推 dongdong0405: 这让我想到早在RAG开始火了之後我就跟同事说RAG这东 12/13 08:42
137F:→ dongdong0405: 西早晚会被取代 12/13 08:42
否,并没有说Nested Learning就不用RAG
因为Nested Learning展示记忆机制是有损压缩(远久的越模糊)
所以必然要在某一层引入RAG的
可能是L2层,可能是L3层,可能是L4层,在工程实作上弹性很大
就像你要记笔记一样
要外部储存一个记忆关连的锚点去重新强化连结
138F:推 axr : 推 看来无脑堆tsm安心睡了 12/13 08:48
139F:→ bnn : 总觉得听你的描述蛋白质刚进入第一层摺叠 12/13 08:48
140F:推 bensonla : 推,买2330就对了 12/13 08:49
141F:推 jen1121 : 2330 NVDA APPL,三档续买 12/13 08:52
142F:→ Risedo : 都颠覆性了 AGI还要2030吗 12/13 08:55
143F:→ MumiPyonPyon: 说要取代transformers的文章年年都有 12/13 08:58
144F:推 Eide : 我大谷歌天下无敌 12/13 09:01
145F:推 leotw : Tsm: 片上sram需求goog: 最高效模型+最低运算成本 12/13 09:03
146F:推 allenmusic : 好专业文 感谢 12/13 09:05
147F:推 a39208491 : 推 12/13 09:10
148F:推 barrytwu : 2330+NASDAQ无脑多! 12/13 09:12
149F:推 wangyl : 有料 12/13 09:13
150F:推 Smile365Day : 应该是要出清做HBM的记忆体厂商 12/13 09:13
151F:→ Lowpapa : 这篇论文跟我想的一样 12/13 09:21
152F:推 AJEN1202 : 感概自己书读太少看不懂 12/13 09:21
153F:推 Lasvegas : 推 12/13 09:23
154F:推 g0t24568 : Mina大995 12/13 09:29
155F:推 stonerr : 感谢分享 12/13 09:29
156F:推 vvnews : 问AI AI却回答HBM需求反而会暴增 请问那里有问题QQ 12/13 09:29
157F:推 lasekoutkast: 重点是掌握权力的那些政治人物 12/13 09:31
158F:→ lasekoutkast: 产业的发展跳脱不了人的管理 12/13 09:32
159F:→ breathair : 你整篇喂进去,不要自己问比较准,AI有答案了 12/13 09:32
160F:→ lasekoutkast: 那些掌握权力的政治人物决定AI发展的快慢 12/13 09:32
161F:推 abyssa1 : 继续卡dram bandwidth才会让NVDA上不去 12/13 09:35
162F:→ abyssa1 : 路线没改的话 到时候dram比显卡还贵 12/13 09:35
163F:推 lasekoutkast: 泡沫的产生归根究底就是在理论尚未成熟前就一窝蜂 12/13 09:35
164F:→ lasekoutkast: 的投入资金 12/13 09:35
165F:推 abyssa1 : Mina为什麽你的ip 在日本 出国玩还这麽认真研究喔 12/13 09:37
166F:推 aixiiae2005 : M大可以直接讲标的吗= =不然2030你又要发文说2025发 12/13 09:38
167F:→ aixiiae2005 : 的文没人看得懂了... 12/13 09:38
168F:→ aixiiae2005 : 这样2030也可以回来稽查XD 12/13 09:39
169F:→ ndk2675m : 新架构的产品,由谁生产@@? 12/13 09:40
170F:嘘 bigwhiteeat : 哥 不能说中文吗…. 12/13 09:41
171F:推 Humanbeings : 这篇含金量超高,已经颠覆对未来AI的想像,感谢分享 12/13 09:41
172F:推 lajeremy : 感谢分享 赞叹Ptt法人 12/13 09:42
173F:推 lasekoutkast: 产业的发展还要考虑现金流 12/13 09:43
174F:推 liliumeow : 听起来更接近人类大脑 但如果这个架构加上超大记忆 12/13 09:46
175F:→ liliumeow : 体 有什麽不好 记忆好总是有地方可以派上用场 搞不 12/13 09:46
176F:→ liliumeow : 好是机器超越人类的地方 12/13 09:46
177F:推 lusifa2007 : 好文推推 12/13 09:47
178F:→ kao9458 : 这个team在ttt的前提下,水了好几篇paper,写的最 12/13 09:49
179F:→ kao9458 : 好的是故事 12/13 09:49
180F:推 qilar : 安啦 transformer 不会死的 12/13 09:52
181F:推 yuantai : 灯别开那麽亮,很多人还有美梦不想醒 12/13 09:52
182F:推 NekomataOkay: 感谢信心加持 12/13 09:52
183F:推 sustto : 记忆体终究要回白菜价惹 PC又赢 12/13 09:55
184F:推 asssstang : 看不懂,但有料给推 12/13 09:56
185F:→ abyssa1 : 记忆体要回白菜价 至少要到产能大量开出来 还很久 12/13 09:56
186F:→ eriker : 又不是O T 就比较好 这种线性模型早就一堆 transfor 12/13 09:56
187F:→ eriker : mer跟暴力解没两样 一定是最强的 12/13 09:56
188F:→ kajika : HBM之後崩溃反转也不会是这个原因啦 12/13 09:57
189F:推 webberya : 我看懂关键字了,铁打的2330买起来就对了 12/13 09:57
191F:推 mamorui : 公司财不揭露 嘻嘻 狗狗比这篇论文发表 可能有新 12/13 09:58
192F:→ mamorui : 的才会发表 12/13 09:58
196F:推 smallmin36 : 好专业!只能推了 12/13 09:58
197F:推 assassinzero: 这篇重点:如果nested learning可行,记忆体的美梦 12/13 09:58
198F:→ assassinzero: 就会破碎 12/13 09:58
200F:→ eriker : 而且资讯越多变烂机率更高 gpt用起来就是这样 真正 12/13 09:58
202F:→ eriker : 有用的通常就是最近的 12/13 09:58
203F:→ ojh : 高手 这下nv真的要崩烂 只能抱孤狗了 12/13 09:58
205F:推 jerrychuang : google不是在2024年就提出Nested Learning的概念了. 12/13 09:59
206F:→ jerrychuang : .其他家应该多少有研究了吧..虽然GOOG还是绝对领先 12/13 09:59
207F:→ jerrychuang : 啦 12/13 09:59
210F:推 mamorui : 公司财最後不再揭露时 AGI就准备完成 12/13 10:00
211F:推 nidhogg : 先无脑台积电再看谁打赢? 12/13 10:00
212F:→ eriker : 长文的任务跟短文是明显不同的 如果trasmformer在记 12/13 10:00
213F:→ eriker : 忆体可行下都还是最强 12/13 10:00
「推论即学习」
你觉得无损储存(KV Cache)比较强,实际上是「死记硬背,没在学」
压缩资讯=从低维空间向高维归纳的过程=学习
人的大脑可没有无限KV
相对的,根据自由能原理相关研究
你在脑中压缩资讯时,会因为预测误差改善而分泌多巴胺
也就是说
基於资讯压缩而生的生理机制(=求知欲)是文明进化的关键因素
214F:推 goodjop : 尊重专业 推,但懂再多的人 短线还是会看错 12/13 10:05
215F:→ goodjop : 何不长抱 删APP即可? 12/13 10:06
216F:→ goodjop : 如果再2020年就有NVDA 已经是25倍的获利 12/13 10:08
217F:→ ojh : 科技变化很快 孤狗推tpu出来 长抱nv删app的全死 12/13 10:09
218F:→ goodjop : 真的吗? 很多人都还是赚钱 死在哪? 12/13 10:10
219F:推 MinJun5566 : 我信mina大 12/13 10:10
220F:→ goodjop : 你的言论 让人容易记住ID 而且越来越容易记住了 12/13 10:11
221F:推 marke18 : 谢谢分享~~ 12/13 10:11
222F:→ loveadu : NV65收,2奈米现在谁用? 12/13 10:15
223F:推 cosmite : 12/13 10:17
224F:→ karcher : 搞AI快变搞哲学了,这有助於营收? 12/13 10:18
225F:推 brightest : 看起来nested 频宽需求只会更大 如果CIM起不来 HBM 12/13 10:18
226F:→ brightest : 需求只会更大 所以关键反而是CIM的创新而不是neste 12/13 10:18
227F:→ brightest : d 12/13 10:18
228F:→ faultless : 看起来谷歌玩的方式才是未来的主流 12/13 10:19
229F:推 as6633208 : scaling law增速>>放缓>>找到更好的算法>>scaling l 12/13 10:19
230F:→ as6633208 : aw增速 LOOP 12/13 10:19
231F:→ as6633208 : 不需质疑scaling law,除非你相信人类科技停滞 12/13 10:20
232F:推 plaay : 现在还没有nested learning 划时代发明的感觉 12/13 10:21
233F:推 a1234567289 : Scaling law不是圣经捏 12/13 10:22
234F:推 as6633208 : 质疑scaling law大概就是觉得人类科技现在就是顶了 12/13 10:24
235F:→ as6633208 : ,不会再更好,破台了,你觉得可能吗,宇宙那麽大尺 12/13 10:24
236F:推 jerrychuang : 应该是HBM下降,但一般LPDDR上升.因为不需要一直搬 12/13 10:24
237F:→ jerrychuang : ,而且餐数量下降 12/13 10:24
238F:推 stanleyiane : 推~ 12/13 10:25
239F:推 as6633208 : 宇宙那麽大尺度,你觉得人类文明就这样见顶了,人生 12/13 10:25
240F:→ as6633208 : 真无趣 12/13 10:25
241F:推 guanting886 : 定期定额买进,做好隔代冲 12/13 10:27
242F:推 jian0202 : 先推 12/13 10:28
243F:推 a1234567289 : 你对scaling law的理解是整个文明算力需求会上升 12/13 10:29
244F:→ a1234567289 : 但这玩意说的是随着模型规模增长 他就会表现得更 12/13 10:29
245F:→ a1234567289 : 有智慧 12/13 10:29
246F:推 bonjour87 : 你的最後假设是记忆体会因为需求扩厂.结论会崩盘? 12/13 10:30
247F:→ bonjour87 : 但现在看到的是记忆体宁愿裁掉消费性也不扩产. 12/13 10:30
一般来说记忆体会有长鞭效应
不过你说的也没错,如果市场很快就纳入长期信号
不再疯狂推高HBM价格,三大记忆体厂也没有因疯狂的短期价格讯号扩厂的话
最终的曲线可能会更平淡一点
泡沫有多大,破的时侯就有多刺激
我文中说2026年末要小心的前提是
明年上半HBM继续以每季+20%~30%的价格增速疯涨
如果现在就是HBM价格高点,稀缺性炒作停止,那反而不会有後面刺激故事
248F:→ a1234567289 : 文明能量 算力需求或许会上升 但这和模型说的scal 12/13 10:30
249F:→ a1234567289 : ing law是两件事 12/13 10:30
250F:推 Comtw : 我看不懂 是不是注定当韭菜了 12/13 10:31
251F:→ a1234567289 : 另外 地球尺度够大了吧 从第一个生命诞生到现在 生 12/13 10:31
252F:→ a1234567289 : 命体的智慧走的一直是更有效率而非更大 12/13 10:31
253F:推 kei1823 : 美光究竟是不是先知 12/13 10:33
254F:推 as6633208 : 单细胞生物也很有效率,始终了展不了科技,就是要堆 12/13 10:37
255F:→ as6633208 : ,有效率只是堆更快,还是要堆 12/13 10:37
256F:推 rayisgreat : mina大大回来了!先推先推! 12/13 10:38
257F:推 a1234567289 : 我只是认为架构永远优先於规模 12/13 10:39
258F:推 TIPPK : 99公公 12/13 10:40
259F:推 kuosos520 : all in TSMC or GOOG NVDA TSMC AAPL? 12/13 10:40
260F:推 jatj : 2楼嘘的好懂 发表一下低见如何 12/13 10:42
261F:推 yuen1029 : 讲到人家看不懂就赢了 12/13 10:50
262F:→ tinybunny : 想买鸭 但看到macd就先等惹 12/13 10:50
263F:推 afacebook : 2年我看大家也是说transformer完蛋了 是mamba得天下 12/13 10:51
264F:→ afacebook : 可是现在主流还是都用Transformer 12/13 10:51
265F:→ afacebook : 看起来真的很厉害 不过在看看 12/13 10:52
Mamba只有一层更新频率
你套用在Nested learning的框架下去理解各种对Transfomer的改进
会发现他们都共享同一套数学表达
所以才说真正重要的不是HOPE架构,而是论文前半的那套数学
266F:推 Noberman : 只有中国要扩厂 你哪边资讯看到其他要扩的? 12/13 10:54
267F:推 schula : 优文推推真有趣,言简意赅,感谢信心加持 12/13 10:56
268F:推 BBKOX : 买半导体ETF应该不会输吧 12/13 10:57
269F:嘘 s942816 : 你不如说量子电脑统一世界 12/13 10:59
270F:→ a9564208 : 最後针对边缘装置跟云端的论述,是不是代表通讯又喷 12/13 11:00
271F:推 afacebook : 我看起来他跟qkv结构没甚麽关联ㄟ 他是一种新的梯度 12/13 11:00
272F:→ afacebook : 度更新方式 12/13 11:01
273F:→ afacebook : 论文确实很厉害 不过跟记忆体好像没啥关联 12/13 11:01
274F:推 FULLHD1080 : 记忆体那边省下来的钱,会转去计算晶片,这样讲大家 12/13 11:02
275F:→ FULLHD1080 : 懂了吗 12/13 11:02
276F:推 woker : 不要吵买google就好 12/13 11:07
277F:推 josephpu : 推 12/13 11:08
278F:推 lovemost : 计概还老师了….努力回忆中 12/13 11:08
279F:→ ookimoo : 软体,硬体会发展,需求不会像你想的那样提升,top 12/13 11:15
280F:→ ookimoo : player手上的钱也是要从投资变回收,听不懂也没办 12/13 11:15
281F:→ ookimoo : 法 12/13 11:15
282F:推 overpolo : 怎麽会没关联 同等级算力用的记忆体变少 所以资源 12/13 11:15
283F:→ overpolo : 要先转去撑高算力 之後算力高了变成存储能力遇瓶颈 12/13 11:16
284F:→ overpolo : 就要再把资源拿去扩充记忆体 这是个正向的景气循环 12/13 11:16
285F:推 joey2k14 : 所以买NVDA、TSM、GOOG、AVGO、AMD、APPL对吧 12/13 11:17
286F:推 aegis43210 : 大规模路线肯定是会有用的 12/13 11:17
287F:推 woker : 买半导体etf好了 基金会自动帮我们研究 12/13 11:22
288F:→ strlen : 要怎麽证明纪忆体不重要了? 12/13 11:25
289F:推 FULLHD1080 : 以fab而言,记忆体御三家营收会典范转移到TSMC,然後 12/13 11:27
290F:→ FULLHD1080 : 我的AGI一定要比你强,所以开始疯狂卷算力 12/13 11:27
291F:→ FULLHD1080 : 现在大家在卷小孩子的学历,以後大家改卷谁家的机器 12/13 11:30
292F:→ FULLHD1080 : 人比较聪明比较能打 12/13 11:30
293F:推 flightmoon : 跟AI聊完,如果要在NL以及BCI上投资,AI建议TSM、 12/13 11:42
294F:→ flightmoon : GOOG、ISRG 12/13 11:42
296F:推 koushimei : 就是台积电继续吃肉 韩厂挫赛 12/13 11:47
297F:推 f0915034335 : 看不懂但先推再说 12/13 11:49
298F:推 JasonTatum11: 就是N变log N 这不是大一就学过的东西吗 12/13 11:56
299F:推 abyssa1 : 记忆体需求不会下降 只是增速回到线性而已 12/13 11:58
对,因为要解的问题又从IO bound变回compute bound了
300F:推 mamorui : 趋势是AI用记忆体扶正 除非谷歌成功颠覆硬体界「 12/13 12:03
301F:→ mamorui : 算力愈高 记忆体永远不够用」的基础观念 12/13 12:03
302F:→ mamorui : 计概的东西是最难撼动的 12/13 12:04
是Compute intensity改变了
303F:推 cloud1030 : 感谢大大的分享 与我想的差不多 12/13 12:06
304F:推 feeling5322 : 感谢大大无私分享 12/13 12:11
305F:推 ynanlin : 从一个学习AI新架构的角度,我把minazukimaya大的 12/13 12:12
306F:→ ynanlin : 意见和Google nested learning paper放到NotebookL 12/13 12:12
307F:→ ynanlin : M上,先做了这份Deep Research报告,大家可以看一 12/13 12:12
309F:推 ab4daa : 快搞死记忆体吧 想组电脑了 12/13 12:13
310F:→ dream12305 : 小看华尔街财技 12/13 12:16
311F:推 longlyeagle : 结果下一世代最後还是靠Google... 12/13 12:24
312F:推 BBKOX : 还没到最後的物理AI,一切都难说 12/13 12:25
313F:→ BBKOX : 半导体ETF买起来 12/13 12:25
314F:推 SuperBig78 : 所以nested learning架构的出现会加速AGI的出现吗? 12/13 12:28
真正的AI产业领导者 aka. Sir Demis Hassabis
他说我们离AGI还差一到两次的关键技术突破
Nested Learning高机率是其中一个(用统一的数学语言重新描述知识与学习的本质)
剩下一个,我不知道 等Google Researh研究出来我再跟你说
315F:推 bonbon789852: 看不懂但是感谢分享 大GG天下无敌 12/13 12:30
316F:推 eatlion : 感谢大大无私分享 12/13 12:30
317F:推 ctes940008 : 要爆了吗? 12/13 12:33
318F:推 for767 : 有什麽好刺激的?记忆体已经好几次这样了 12/13 12:37
每一次记忆体周期都很刺激好吗XD
319F:推 jorden : 感谢分享 终於懂目前AI模型语言一堆限制的逻辑了 12/13 12:37
320F:推 bring777 : 领先技术的,现在谁新手机没用AI ? 12/13 12:38
321F:推 oops801011 : 推 12/13 12:43
322F:推 SilverRH : GSIT先躺一票人进去了 12/13 12:47
323F:推 pmes9866 : 老铁牛逼 我要好好复习我的数学了 12/13 12:49
324F:推 loopdiuretic: 那台积要回房间喝酒了吗 夺门而出啥时回来? 12/13 13:12
325F:推 s81048112 : 看完推 12/13 13:14
326F:推 CCPenis : 还真的是2330无脑多 12/13 13:19
327F:推 BBKOX : 重压TSMX,再加上七巨头杠杆ETF,应该可以应对後面 12/13 13:22
328F:→ BBKOX : AI的发展 12/13 13:22
329F:推 junior020486: 甲骨文丸辣 12/13 13:22
330F:→ BBKOX : 囊括代工、算力、模型、应用 12/13 13:23
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 13:23:49
331F:推 NoMomoNoLife: 贺出桶!还马上热心分享QQ 12/13 13:23
332F:推 ynanlin : 关於接下来几年学习推理运算所用的晶片,会朝更客 12/13 13:23
333F:→ ynanlin : 制化,记忆体需求与架构也将改变,由於NL是Google 12/13 13:23
334F:→ ynanlin : 开发也正积极落实应用,可想见内部有更多相应硬体 12/13 13:23
335F:→ ynanlin : 架构的研发,也有相对领先的优势。粗浅的Deep Rese 12/13 13:23
337F:→ ynanlin : v1X3) 12/13 13:23
338F:推 walkingtall : m大厉害!希望後续持续帮忙暗示(或明示XD)救一下 12/13 13:25
339F:→ walkingtall : 我们这些小菜鸡XD 12/13 13:25
340F:推 nikoyaka9527: 推mina大,谢谢分享资讯 12/13 13:34
341F:推 rayisgreat : 前几天才看到TSMC释出的N7到未来A14的效能演进,再 12/13 13:37
342F:→ rayisgreat : 加上架构模型持续架化,两者相辅相成实在很难想像未 12/13 13:37
343F:→ rayisgreat : 来的AI世界会有多可怕@@ 12/13 13:37
344F:→ rayisgreat : *持续进化 12/13 13:37
345F:→ alanjiang : 这是可以免费看的吗www 12/13 13:38
347F:推 rayisgreat : 再次感谢mina大大分享 12/13 13:41
348F:推 bob1012 : 感谢分享 12/13 13:48
349F:推 ACDC69 : 看不懂,先推 12/13 13:49
350F:推 OuO333333 : 看起来像Transformer+RL? 12/13 13:58
351F:推 mamorui : mina大一定知道数学猜想也在靠AI解决中,菇菇我等 12/13 14:01
352F:→ mamorui : 躺在科学家尘封盒子的做不下去的论文登场,AI的第 12/13 14:01
353F:→ mamorui : 三篇章圣杯是黑科技。 12/13 14:01
不止是数学,包含社会科学和经济学,这种传统上归到文组的领域
实际上也是需要AI研究的
因为数学语言是有普世扩展性的
所以从Nested Learning的起点出发,再多几步推导
就能得出「文明的本质就是计算」
延伸出L6与L7的计算层,发展出一套用来描述文明、制度的数学语言
https://reurl.cc/6bK3Q5
我提供一个引子给对这方面研究有兴趣的人去读
老样子,如果读不懂,就丢去问AI吧
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 14:15:06
354F:推 TaiwanUp : NL=控制理论 Transformer=引擎 HOPE=会变形的引擎 12/13 14:11
355F:→ TaiwanUp : 会变形的引擎在飞机来说很恐怖 但模型训练不一定 12/13 14:12
356F:→ TaiwanUp : 热力学定律还是至高无上 很难有什麽技术可比喻为之 12/13 14:14
357F:→ TaiwanUp : 热力学定律是不可被比喻的 12/13 14:15
你小看了Nested learning这篇论文的背後扩展潜力
它不单单只是一篇关於AI的论文,它「正好是热力学定律的反面理论」
热力学是关於「宇宙的熵增」
Nested learning是关於「文明的熵减」
刚好是对偶关系
358F:→ TaiwanUp : 刚睡醒就看了好人名单文 刷了两小时的手机 12/13 14:16
359F:→ h22349 : 别想太多 一篇优化效率 现在ai就像是国土扩张,迟 12/13 14:22
360F:→ h22349 : 早会有新算法,需要这些资源 12/13 14:22
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 14:24:18
361F:推 FULLHD1080 : AI的飞轮效应要来了,算法-硬体 相互改善,直到物理 12/13 14:25
362F:→ FULLHD1080 : 化学的穷尽 12/13 14:25
363F:推 linweida : 睡醒看到Mina大的文必推! (mina怎麽好像不用睡觉) 12/13 14:30
364F:推 ykjiang : SRAM太贵太占die size且面向用户,不用太低延迟 12/13 14:38
365F:→ ykjiang : DRAM应该更适合 12/13 14:38
366F:→ TaiwanUp : 文明熵减是局部熵减 很难跟全域对偶 但是人致富关键 12/13 14:57
367F:推 hotbeat : CUDA 才是那个圣杯 ,ASIC只能做edge的 12/13 14:59
368F:嘘 MoonCode : 想太多了 12/13 15:01
369F:推 hotbeat : 怎麽看google还是最大赢家,跟台厂有结盟的基本上 12/13 15:08
370F:→ hotbeat : 都不用担忧太多 12/13 15:08
371F:推 breathair : 再推一次!看完觉得自己对AI的发展拔高了不只一层! 12/13 15:15
372F:推 TaiwanUp : 宇宙和文明还是有对偶 但没有野蛮和文明那麽明显 12/13 15:23
373F:推 afacebook : 当初大家觉得Mamba能取代transformer 是MoE+mamba或 12/13 15:32
374F:→ afacebook : 其他的架构 当然不可能只有一层ssm的架构啊 12/13 15:33
375F:→ afacebook : 这东西感觉是一种特别的fine turing 12/13 15:34
376F:→ afacebook : 能不能成功 要再多做一点实验 12/13 15:34
377F:→ afacebook : 现在主要还是觉得大模型比较强 12/13 15:36
378F:→ afacebook : 这是想要做些中模型 就能有很好的适应能力吧 12/13 15:36
379F:→ afacebook : 很特别 请google再多做一点实验 12/13 15:37
380F:→ afacebook : CMS这种更新方式 其实跟一般 先冻结一些层 然後慢慢 12/13 15:39
381F:→ afacebook : 打开 不是很像吗? 12/13 15:40
382F:→ afacebook : 然道主要是那optimizer有贡献吗 12/13 15:41
383F:→ afacebook : 好像也没这麽简单 要再研究一下 12/13 15:43
384F:→ TaiwanUp : NL像是联合国宪章 HOPE是机构+流程 Transformer美国 12/13 15:52
385F:→ TaiwanUp : Mamba就是另一国 但看起来没有成气候 12/13 16:01
386F:推 misthide : 总归一句 2330是最大赢家 任何新技术都绕不开它 12/13 16:02
387F:推 BBKOX : 以为买了AI Pro就能一直使用Gemini思考型,结果还 12/13 16:10
388F:→ BBKOX : 是有次数限制… 12/13 16:10
389F:推 afacebook : Mamba有没有成气候 还不知道吧.... 12/13 16:24
390F:→ afacebook : 每次新架构出来 基本都会吹一下 要经过检验 12/13 16:26
391F:推 afacebook : 说实在 我个人是觉得没有到当初看Transformer那种 12/13 16:28
392F:→ afacebook : 神奇感 就是等看接下来发展 12/13 16:29
393F:→ PTTMAXQQ : 感恩啊 谢谢分享专业知识 对我帮助蛮大的 12/13 16:40
394F:推 sss966146 : 想问2019是哪一篇 12/13 16:50
395F:推 h129875230 : 要五层参数 不就要一大坨人帮忙 fine tune吗 这个 12/13 16:51
396F:→ h129875230 : 五年内就出来 是不是有点乐观 12/13 16:51
五层不是五个模型好吗,它是同一个模型的巢状表达
在快层传到慢层时,传递的是「语义向量」
这就表示L2传给L3的语义向量要是同义的
也就是说,整个模型是要五层一起联合训练的
预训练时不可能分散布署
是训练完才把L1/L2的初始静态参数(慢权重)布署到边缘端
397F:推 jonaswang01 : 我g天下无敌还有人有疑问? 12/13 17:12
398F:推 suPerFlyK : 只能推了 12/13 17:17
399F:推 akanokuruma : 意思是记忆卡现在风声水起 随着技术更新 扩厂=负债 12/13 17:29
400F:→ akanokuruma : 亏损 暴死 12/13 17:30
401F:推 Bellucci : 看不懂所以问AI, 它建议是Goog/AAPL/AVGO/QCOM/ARM/ 12/13 17:35
402F:→ Bellucci : TSMC/联发科 , Nvidia有其护城河且他具备训练功能不 12/13 17:35
403F:→ Bellucci : 至於死掉但要分散风险不重仓。 12/13 17:35
404F:推 Bellucci : TSM是绝对防御 12/13 17:38
405F:推 darkangel119: AI回答我是SRAM IP 跟 ASIC 事核心受益者 咦? 12/13 17:40
410F:→ Bellucci : 我菜鸡还是QQQ和mega 7就好,神仙打架我没资格参加 12/13 17:52
411F:推 joewang85 : 推 12/13 17:58
※ 编辑: minazukimaya (146.70.205.172 日本), 12/13/2025 18:07:13
412F:推 as6633208 : 行业护城河问gpt你会很惨喔,每间护城河都是在增加 12/13 18:06
413F:→ as6633208 : 的要看的是未来布局 12/13 18:06
414F:推 mudmud : Active Entropy Control Model 12/13 18:28
415F:推 Bellucci : 我没问行业护城河欸我直接给论文它自己写的 12/13 18:28
416F:→ Bellucci : 重点不在第四张在前三张 12/13 18:29
417F:→ Bellucci : 反正AI没回要买Nividia 是建议前三张的标的 12/13 18:30
418F:推 lee198218 : 谢谢提供非常好的素材 12/13 19:00
419F:推 breathair : 此篇重点在未来AI世界的描绘,虚拟与现实的双耦,虚 12/13 19:06
420F:→ breathair : 拟的入口(GOOG,APPL),物理的极限(TSM,CEG) 12/13 19:06
421F:→ lavign : 通用型怎麽什麽都不精怎麽和ASIC比 12/13 21:03
422F:推 PTTMAXQQ : 你各位还是想想最终消费者会选择从哪个入口去付费A 12/13 21:16
423F:→ PTTMAXQQ : I 12/13 21:16
424F:推 sustainer123: 这篇不是github还没开源吗? 12/13 21:28
425F:推 avans : 不懂Nested Learning如何降低vram用量,不过先推了! 12/13 22:49
426F:→ njjroom : 谢谢mina大的分享引起很多大大的讨论,跪学中…… 12/13 23:16
427F:推 ksjr : asic每次换算法都要重新设计来取得最佳效能啊 12/13 23:39
※ avans:转录至看板 AI_Art 12/14 00:12
428F:推 ykjiang : 这用TPU跑一定悲剧,GPU勉强可以,ASIC有得等 12/14 02:00
429F:→ ykjiang : 不过NL不会太快取代现有的LLM,即使硬体充分支援 12/14 02:01
430F:→ ykjiang : 每个人都云端学习自己的AI model,学出来还都不同 12/14 02:02
431F:→ ykjiang : 太不可控了 12/14 02:02
432F:→ ykjiang : 可以考虑边缘端的应用,不过风险还是很高,容易被告 12/14 02:03