作者a80104 (小蛋)
看板PC_Shopping
标题[情报] AI 将不需要大量记忆体 Google 发表 Turb
时间Thu Mar 26 21:06:01 2026
https://reurl.cc/18m4VQ
AI 将不需要大量记忆体 Google 发表 TurboQuant 压缩技术 记忆体加价潮或可终结
作者
Lawton
发布日期
2026-03-26
Google 最新发表 TurboQuant 记忆体压缩技术,大幅降低人工智能运算所需硬件资源,触发市场对储存设备需求大减恐慌。美股储存晶片类股股价周三应声暴跌,惟多间华尔街投行看好效率提升将带动更大规模应用,呼吁投资者趁机吸纳。
压缩技术效能惊人
Google 发表名为 TurboQuant 记忆体压缩演算法,市场忧虑储存硬件长期需求会大幅减少,触发相关资产抛售潮。Google 团队指出 TurboQuant 可在不影响准确度下,将大型语言模型执行时占用快取记忆体减少最少 6 倍。开发团队成功将键值快取无损压缩至 3-bit,利用 Gemma 及 Mistral 等开源模型测试时,发现在 Nvidia H100 显示卡上运作效能对比未量化 32-bit 方案最高提升 8 倍。目前人工智能军备竞赛极度依赖硬件规模扩张,任何削减实体记忆体采购量技术进步,原文出自 unwire.hk, 均足以令估值偏高晶片类股面临沉重沽压。此项新技术将於下月 ICLR
2026 大会上正式发表。
等等党要胜利了?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.140.155.127 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PC_Shopping/M.1774530364.A.002.html
1F:推 mqhung: 好,要上128G可以少花一点钱了 114.34.228.170 03/26 21:10
2F:推 UniversalGod: 爽啊~~~记忆体厂跌死你 101.10.251.115 03/26 21:15
3F:推 pphyy5844548: 我觉得企业会卖更多… 123.252.75.84 03/26 21:15
4F:推 lc85301: 减少 6 倍那不就能跑 6 倍大的模型了吗 36.231.102.42 03/26 21:16
5F:推 kaj1983: 压缩後可以装的更多了 218.166.17.80 03/26 21:16
6F:推 saiboos: 记忆卡蛙... 219.71.144.68 03/26 21:17
7F:推 davidex: 不可能 绝对不可能 36.230.8.61 03/26 21:17
8F:推 whizz: 爽啦 记忆体本来就应该便宜 61.223.6.35 03/26 21:17
9F:推 leviva: google竟然能间接拯救消费市场?220.129.138.108 03/26 21:19
10F:推 MK47: 真假 估狗有这麽猛喔 111.83.69.136 03/26 21:22
11F:推 superRKO: 减少6倍不就代表可以装更多了吗?220.135.222.131 03/26 21:22
12F:→ knight72728: google我的神,推动地球进步的英雄125.230.216.168 03/26 21:27
13F:→ a27588679: 哇靠 大场面来了 180.177.33.135 03/26 21:29
14F:推 shokotan: 烂美光可以重新开卖记忆体了吗 = = 111.250.128.86 03/26 21:32
15F:推 UniversalGod: 的跌死你!!! 101.10.251.115 03/26 21:34
16F:推 CJhang: 可以花六倍 一样涨 101.12.86.7 03/26 21:34
17F:→ brianuser: 语言模型受惠,那影片那些呢 218.164.20.35 03/26 21:35
18F:→ sss870192: 威刚 美光 三星 :干 114.36.121.77 03/26 21:36
19F:推 UniversalGod: 多跌一些www 101.10.251.115 03/26 21:40
20F:推 wind183: 压缩技术是拿来跑更大的模型不是拿来降 101.14.4.0 03/26 21:41
21F:→ wind183: 价用的 101.14.4.0 03/26 21:41
22F:推 aa1477888: 颗粒厂有什麽好干的 又没扩厂根本不亏 218.35.220.53 03/26 21:42
23F:推 oopFoo: 这个东西主要是vector search,影响有限 58.114.66.74 03/26 21:43
24F:推 bill6613: 能压缩更多不代表可以装更多,代表AI基 211.20.112.29 03/26 21:46
25F:→ bill6613: 建更激烈不是 211.20.112.29 03/26 21:46
26F:推 kuninaka: 只会越用越多而已 36.239.82.97 03/26 21:48
27F:→ kuninaka: 因为我要看雪山狐狸 36.239.82.97 03/26 21:48
28F:推 pita30: 应该是觉得能跑更大模型而不是少买记忆体 219.69.115.71 03/26 21:49
29F:→ pita30: 吧 219.69.115.71 03/26 21:49
30F:推 vin312789: 谁跟你说这样就不会涨了 27.240.40.251 03/26 21:49
31F:推 baddaddy: 记忆体需求会更多,以前做不到的事,现 36.231.180.62 03/26 21:50
32F:→ baddaddy: 在ai能做到更多事,用量会变更大 36.231.180.62 03/26 21:50
33F:→ baddaddy: 傻傻地 36.231.180.62 03/26 21:50
34F:推 XiaoLi: 压缩六倍=会用更多的资料训练 114.34.216.177 03/26 21:52
35F:→ XiaoLi: 根本不会减少记忆体需求吧 114.34.216.177 03/26 21:52
36F:推 ctes940008: 好哦,变六倍效能喔,继续军备竞赛。 36.237.110.244 03/26 21:52
37F:→ ctes940008: 一样是有多少包多少 36.237.110.244 03/26 21:52
38F:推 sm981512: 爽啊 36.239.79.205 03/26 21:54
39F:推 w1222067: 这不是昨天就在说吗 61.224.23.191 03/26 22:07
40F:→ w1222067: 感觉 压根不影响 涨价XD 61.224.23.191 03/26 22:07
41F:推 foolwind: 减少6倍不就代表价钱还能再涨6倍以上 123.192.162.54 03/26 22:08
42F:推 kjm1104: 两个字 不可能 223.138.20.105 03/26 22:08
43F:推 ltytw: 能压缩之後 只会越来越贪婪吧? 36.234.206.177 03/26 22:09
44F:推 d0178411: 还我1T1000 32G3000 111.71.213.96 03/26 22:11
45F:→ taruru: 有人只是上PTT跟看水管还是插满128G 61.224.178.213 03/26 22:17
46F:推 YCL13: 对有用AI的人而言,这是让RAM更值钱,举例 59.115.138.195 03/26 22:17
47F:→ taruru: 记忆体没在嫌多的 61.224.178.213 03/26 22:17
48F:→ YCL13: 来说现在大家都觉得64X4要价10万太贵,但能 59.115.138.195 03/26 22:17
49F:→ YCL13: 压缩6倍等於256G DRAM可以offload 1T等级的 59.115.138.195 03/26 22:17
50F:→ YCL13: LLM,那10万就会突然变不贵,让跑AI的更疯 59.115.138.195 03/26 22:17
51F:→ YCL13: 狂去抢RAM 59.115.138.195 03/26 22:17
52F:推 x21999125x: 刚才看locallama subreddit又多了一 110.30.8.197 03/26 22:25
53F:→ x21999125x: 个rotorquant,这个月的LLM发展超多 110.30.8.197 03/26 22:25
54F:推 ejru65m4: 压缩六倍记忆体 八倍的效能223.136.112.129 03/26 22:27
55F:推 a45351: 如果是真的,价格至少还要翻3倍 101.8.232.36 03/26 22:28
56F:→ ejru65m4: 除了三星 好像都有扩厂的风声223.136.112.129 03/26 22:29
57F:→ Akabane: 没错 压缩六倍只是让他算多六倍XD 114.35.99.248 03/26 22:30
58F:→ ejru65m4: 等过半年 看看哪个是预言家223.136.112.129 03/26 22:30
59F:→ KY1998: 需求还是很多,不然狐狸酱板鸭怎来的 114.24.142.62 03/26 22:30
60F:→ ejru65m4: 明天倒是可以先看看市场信心223.136.112.129 03/26 22:31
61F:→ ejru65m4: 看看涨三倍还六倍223.136.112.129 03/26 22:32
62F:→ a740125: 能压缩也代表可以用的更爽阿 1.172.84.50 03/26 22:37
63F:推 violetish: 让子弹飞一会儿吧 别先爽 各零件普遍涨 114.35.247.1 03/26 22:41
64F:推 HiJimmy: 我觉得是帮i和a卖cpu,gpu主算力,cpu 36.235.157.130 03/26 22:45
65F:→ HiJimmy: 当小助手,分配、压缩和解压,就是cpu也 36.235.157.130 03/26 22:45
66F:→ HiJimmy: 要越配越高,ram就不会降,卡到是一直加 36.235.157.130 03/26 22:45
67F:推 liaox: 我是觉得短时间内不可能跌啦 1.161.30.47 03/26 22:46
68F:推 aegis43210: 又不是每个模型都可以支援,而且现在 106.104.70.5 03/26 22:50
69F:→ aegis43210: 记忆体需求主要在西台湾,google不给 106.104.70.5 03/26 22:50
70F:→ aegis43210: 西台湾用的话,影响就很小 106.104.70.5 03/26 22:50
71F:推 kant1123: 能压缩就能装更多阿 1.173.176.60 03/26 22:51
72F:推 littledrop: 就像寒武纪大爆发 一旦发展就会加速 150.117.221.17 03/26 22:52
73F:→ littledrop: 更快的网路、更快的运算、更快的储存 150.117.221.17 03/26 22:53
74F:→ littledrop: 对於AI的需求 当然是更大模型跟运算 150.117.221.17 03/26 22:54
75F:推 ejru65m4: 是啊 更大更多 现在就算全记忆体扩产六223.136.112.129 03/26 22:56
76F:→ ejru65m4: 倍也吃得下223.136.112.129 03/26 22:56
77F:→ ejru65m4: 换算法降需求不过是另一种扩产六倍而已223.136.112.129 03/26 22:57
78F:→ star99: 这个模型配此算法少六倍 其他不一定能 42.73.112.32 03/26 23:08
79F:→ star99: 图像声音影像生成各种算法底层也不同 42.73.112.32 03/26 23:08
80F:推 alvistan: 记忆体要泡沫了!!! 125.229.106.95 03/26 23:10
81F:推 sova0809: OK 资料中心又多了6倍的记忆体使用空间 218.166.73.150 03/26 23:14
82F:推 necrophagist: 这是压缩上下文大小kv cache的 模 223.143.78.117 03/26 23:17
83F:→ necrophagist: 型本身大小一样 就是能让你对话能 223.143.78.117 03/26 23:17
84F:→ necrophagist: 更长 223.143.78.117 03/26 23:17
85F:推 bizer: 压得多,代表能装更大的模型,不代表记忆体 36.225.186.149 03/26 23:22
86F:→ bizer: 省 36.225.186.149 03/26 23:22
87F:推 RaiGend0519: 我刚刚去看这到底啥玩意 1.168.51.108 03/26 23:27
88F:→ RaiGend0519: 省掉记忆体 1.168.51.108 03/26 23:27
89F:推 chinhan1216: YA! 118.161.16.148 03/26 23:28
90F:→ RaiGend0519: 但是提高运算负担、降低准确度 1.168.51.108 03/26 23:28
91F:→ RaiGend0519: 虽然搞不太懂到底要怎麽适用各模型 1.168.51.108 03/26 23:28
92F:→ RaiGend0519: 但如果NV搞成晶片硬体加速的话应该会 1.168.51.108 03/26 23:29
93F:→ RaiGend0519: 很可观 1.168.51.108 03/26 23:29
94F:推 RaiGend0519: 问AI他给个例子满好懂的 1.168.51.108 03/26 23:32
95F:→ RaiGend0519: 现在使用的AI就像音乐听FLAC 1.168.51.108 03/26 23:32
96F:→ RaiGend0519: TurboQuant把FLAC压成MP3 1.168.51.108 03/26 23:32
97F:→ RaiGend0519: 听起来还有个87%像但容量大幅减少 1.168.51.108 03/26 23:33
98F:推 RaiGend0519: 於是小容量播放器也能塞几千首歌 1.168.51.108 03/26 23:35
99F:→ RaiGend0519: 容量需求仍然成长但趋缓 1.168.51.108 03/26 23:36
100F:推 ElderShock: 黄牛: 假的 111.71.32.205 03/26 23:36
101F:推 KooA: 现在买一条=之前买6条,买爆 1.34.190.197 03/26 23:37
102F:推 reaturn: 可以压缩那不代表说可以买更多记忆体来218.166.139.143 03/26 23:46
103F:→ reaturn: 做多一倍的事吗218.166.139.143 03/26 23:46
104F:推 alvistan: 注意这个是省HBM 不是省SSD 125.229.106.95 03/26 23:51
105F:推 bobby4755: 太棒了 更多人会想抢记忆体了 223.137.4.136 03/26 23:51
106F:推 dsin: 这个是省下纪录内容的容量 不是模型本身 假 123.194.245.27 03/27 00:07
107F:→ dsin: 设你之前跟AI聊天10句话要1G记忆体存 现在可 123.194.245.27 03/27 00:08
108F:→ dsin: 以存60句用1G 不存下来他就忘记之前讲过的话 123.194.245.27 03/27 00:09
109F:→ dsin: 这叫kv cache 123.194.245.27 03/27 00:10
110F:推 lordmi: 一堆瞎起哄的。这个主要是在缩减你本地端 36.229.84.19 03/27 00:18
111F:→ lordmi: 推论KV Cache size,也就是说利好手机或 36.229.84.19 03/27 00:18
112F:→ lordmi: 笔电应用ai,对少说有几千张h100在训练的 36.229.84.19 03/27 00:18
113F:→ lordmi: 集群根本不相干,更别提减少里面的记忆体 36.229.84.19 03/27 00:18
114F:→ lordmi: 用量了 36.229.84.19 03/27 00:18
115F:→ ketrobo: 这样反而要涨了,算力卖便宜了,再涨六倍 223.140.169.83 03/27 00:21
116F:→ ketrobo: 价钱卖 223.140.169.83 03/27 00:21
117F:→ Warez: 不用大量?那就是还是要罗? 再涨你个十万 60.249.139.8 03/27 00:35
118F:→ Warez: ! 60.249.139.8 03/27 00:35
119F:→ yun1019: 想太多 还是需要记忆体 220.134.139.35 03/27 00:53
120F:推 casco5566: 加油 118.166.29.82 03/27 01:26
121F:推 r60214: 压缩越多不就代表装越多更好 59.102.166.48 03/27 02:13
122F:推 samsonfu: 本地端能用就是福音 27.53.230.97 03/27 02:24
123F:→ tshu: 在电脑上有压缩的东西还少吗?手机照片影片 59.126.229.192 03/27 02:32
124F:→ tshu: ,空间有省?哪个不是越用越大?网路频宽加 59.126.229.192 03/27 02:32
125F:→ tshu: 大再加大,win11一直塞新bug没变大? 59.126.229.192 03/27 02:32
126F:→ tuwile: 牛皮了GOOGLE 1.168.32.245 03/27 02:58
127F:→ dildoe: 不会结果context大小变大 军备竞赛依旧吧 118.168.181.87 03/27 06:21
128F:→ dildoe: 每天给错误引导ncc视而不见 118.168.181.87 03/27 06:22
129F:→ dildoe: 这种有奇怪目的文一般人有需要参考吗? 118.168.181.87 03/27 06:24
130F:→ dildoe: 贴股版不是更好 118.168.181.87 03/27 06:24
131F:推 YCL13: 如果是省KV cache,那觉得品质要考量,就像 59.115.138.195 03/27 06:40
132F:→ YCL13: 早就有的fast attention也可,但不少人就觉 59.115.138.195 03/27 06:40
133F:→ YCL13: 得为了省记忆体降到Q4并不值得 59.115.138.195 03/27 06:40
134F:推 iorittn: 雪山狐狸的长度多6倍 42.77.52.171 03/27 07:00
135F:嘘 ruei1999: 整个华尔街菜B说法,记忆体能少用代表我 114.36.100.27 03/27 08:35
136F:→ ruei1999: 本来32G可能变成16G就可以,那我为什麽 114.36.100.27 03/27 08:35
137F:→ ruei1999: 不继续塞满32G?现在搞模型的本地户没钱 114.36.100.27 03/27 08:35
138F:→ ruei1999: 上128,256啊… 114.36.100.27 03/27 08:35
139F:推 CloudVII: 原本飞天因为战争掉下来 更因为新技术又 223.23.199.243 03/27 08:43
140F:→ CloudVII: 下坠了 223.23.199.243 03/27 08:43
141F:推 tetani: 感觉是骗人 压缩後 用更多记忆体优势更多 218.173.205.52 03/27 09:09
142F:推 sali921: 5090可以跑192G模型,爽翻天223.138.147.219 03/27 09:18
143F:推 newyorker54: 载入模型所需记忆体不变,只有上下文 42.78.36.162 03/27 09:23
144F:→ newyorker54: 长度吃掉的记忆体可能少为四分之一, 42.78.36.162 03/27 09:23
145F:→ newyorker54: 256k上下文或许用10G,最吃记忆体的 42.78.36.162 03/27 09:23
146F:→ newyorker54: 本体还是一样消耗 42.78.36.162 03/27 09:23
147F:推 hannah5269: 套句等等党讲的 我好兴奋哇! 42.79.152.45 03/27 09:25
148F:→ aabbc777: 省记忆体不代表会少买记忆体 59.120.215.74 03/27 09:31
149F:→ tn601374: 代表成本降低 但是还是需求很大 1.164.223.209 03/27 09:33
150F:推 hayato01: 确实省记忆体跟少买是两回事103.129.180.234 03/27 09:36
151F:→ hayato01: 因为不论省不省,都是量大才能干大事103.129.180.234 03/27 09:36
152F:→ clair281: 需求还是在啊,不过消费级应该可以降了 101.9.203.253 03/27 09:38
153F:推 tddt: 记忆体厂跌死你们 36.231.75.176 03/27 09:45
154F:推 selfhu: 可以榨六次了114.137.129.228 03/27 09:54
155F:推 vixiv: 趁机吸纳个鬼 正常是改投google吧 怕没人接 42.72.183.140 03/27 10:08
156F:→ vixiv: 记忆体逆 42.72.183.140 03/27 10:08
157F:→ linzero: 压缩多少会拖慢时间吧? 36.230.150.69 03/27 10:11
158F:→ aa0968: 记忆体厂: 干 这样我怎麽薛钱!223.137.207.159 03/27 10:13
159F:→ kimula01: 记忆体跟算力一样 一定会军备竞赛 1.164.129.154 03/27 10:29
160F:→ Vansace: 喔? 有新技术了? 114.47.82.190 03/27 10:35
161F:推 newyorker54: 要在vllm下才能用而且vllm现在就还没 42.78.36.162 03/27 10:48
162F:→ newyorker54: 支援这个演算法 42.78.36.162 03/27 10:49
163F:→ commandoEX: WAV才是未压缩音讯 59.125.204.130 03/27 10:58
164F:→ widec: 我只问一件事:你会嫌助理记的事情太多吗? 114.42.242.182 03/27 11:17
165F:→ widec: 就算现在的AI记忆范围多一倍 都还远远不够 114.42.242.182 03/27 11:18
166F:→ widec: 而google以外的公司不就要买更多才能赶上? 114.42.242.182 03/27 11:19
167F:推 mimicqneb: 赚到6倍记忆体? 49.215.218.68 03/27 11:20
168F:推 mainsa: 这麽说好惹 如果nv推出一个ai算力加倍的 49.216.222.244 03/27 11:22
169F:→ mainsa: 新晶片 那各家ai公司会买一半的量还是买 49.216.222.244 03/27 11:23
170F:→ mainsa: 更多? 我有六倍性能还不她妈加更多钱抢爆 49.216.222.244 03/27 11:23
171F:→ mainsa: 原本可能还嫌贵 现在有这压缩技术可能愿意 49.216.222.244 03/27 11:23
172F:→ mainsa: 用再贵两倍的钱去抢 49.216.222.244 03/27 11:24
173F:→ takanasiyaya: 想太多,不是省1/6是用6倍,现在120 101.10.218.65 03/27 11:30
174F:→ takanasiyaya: B都「小」模型了 101.10.218.65 03/27 11:30
175F:推 bunjie: 这技术的推出 会加速各大厂在支出和获利 111.82.50.22 03/27 11:43
176F:→ bunjie: 取得一个平衡 111.82.50.22 03/27 11:43
177F:→ bunjie: 这技术如果是google独有 假设同性能他只 111.82.50.22 03/27 11:45
178F:→ bunjie: 要用1/6的成本就和对手打的平分秋色 那稍 111.82.50.22 03/27 11:45
179F:→ bunjie: 微再多一些成本就领先 那这样当然就不回 111.82.50.22 03/27 11:45
180F:→ bunjie: 再用100%的成本去执行罗 111.82.50.22 03/27 11:45
181F:→ excercang: 後头有大魔王欧盟阿,笼断性技术122.116.214.166 03/27 12:08
182F:→ excercang: 很容易被欧盟用藉口罚钱,成本转稼後122.116.214.166 03/27 12:09
183F:→ excercang: 未必比现在还省122.116.214.166 03/27 12:09
184F:推 Bustycat: 这不是让你可用更大模型的技术 27.53.225.168 03/27 12:16
185F:→ Bustycat: 现在价跌只是很多人不懂 27.53.225.168 03/27 12:17
186F:推 RaiGend0519: 嗯,能落实的话我也觉得会再平衡 1.168.5.240 03/27 12:19
187F:推 RaiGend0519: 短期需求趋缓成长期发展,就比较难 1.168.5.240 03/27 12:23
188F:→ RaiGend0519: 炒价格惹 1.168.5.240 03/27 12:23
189F:→ corum68972: 这波扫记忆体的又不是google 42.72.92.211 03/27 12:38
190F:推 menchian: 减少6倍不就代表同样的硬体可以跑更大更 114.42.183.229 03/27 12:52
191F:→ menchian: 好的模型? 114.42.183.229 03/27 12:52
192F:→ necrophagist: 就说这是压kv cache了 压模型早就 223.143.78.117 03/27 13:09
193F:→ necrophagist: 有gguf等很多方法 但都是牺牲精度 223.143.78.117 03/27 13:09
194F:→ necrophagist: 去换 223.143.78.117 03/27 13:09
195F:推 klm619: 既有规模直接翻六倍,表示又能再增加了 111.248.212.23 03/27 13:21
196F:→ tsairay: google就是买不到货才需要搞这个吧 202.39.11.150 03/27 14:36
197F:推 newyorker54: 上下文长度增加,记忆内容加大,只会120.114.249.100 03/27 14:46
198F:→ newyorker54: 让人觉得AI变聪明,使用量只会更多不120.114.249.100 03/27 14:46
199F:→ newyorker54: 会更少120.114.249.100 03/27 14:46
200F:→ MrDisgrace: 酱不就RAM买越多赚越多XD136.226.240.252 03/27 15:40
201F:推 kanding255: 爽啦 49.217.132.63 03/27 17:50
202F:推 tcchu: 有没人套住? 27.242.98.42 03/27 19:18
203F:→ SkyBearV: 绝对有人怕了 不然也不会清一色唱衰220.135.195.252 03/27 20:01
204F:→ ksng1092: 方向是不要再受制於特定硬体架构,然後 114.32.144.153 03/27 20:26
205F:→ ksng1092: 就炒不起来(?) 114.32.144.153 03/27 20:26
206F:→ ksng1092: 另外在问google买不买得到货之前,好像 114.32.144.153 03/27 20:27
207F:→ ksng1092: 要问openai到底还吃不吃得下货XD 114.32.144.153 03/27 20:27
208F:推 ryl54007: 太棒了真的降价我要帮gemeni升级pro了 111.241.119.3 03/27 20:40
209F:推 asphodelux: 需求减少 但多多益善是吧 42.78.53.104 03/27 23:56
210F:推 RaiGend0519: 没事 闪迪今晚回神 1.168.5.240 03/28 00:57
211F:→ RaiGend0519: 虽然又A下去惹 1.168.5.240 03/28 00:57
212F:→ aggressorX: 快点跌 我要组 1.162.62.56 03/28 12:20
213F:推 ericwang1017: 不是,到底有没有人看懂,是kv变1/ 36.224.159.3 03/28 16:14
214F:→ ericwang1017: 6而已 36.224.159.3 03/28 16:14
215F:→ ericwang1017: 看来留言很多没玩, local llm 36.224.159.3 03/28 16:14
216F:→ ericwang1017: 是省context ,非模型本身 36.224.159.3 03/28 16:16
217F:推 GTR34: 放屁 这只会让模型更巨大111.254.208.175 03/28 21:22
218F:推 leviathen: 3 bit!? 太猛了.... 192.184.219.91 03/29 10:30