作者motan (警察先生就是这个人)
看板Tech_Job
标题[新闻] 震撼!辉达NVFP4格式突破4位元极限 AI训
时间Thu Aug 28 18:35:33 2025
原始标题:
震撼!辉达NVFP4格式突破4位元极限 AI训练效率翻倍
原始连结:
https://news.cnyes.com/news/id/6129950
原文:
辉达 (NVDA-US) 发布其突破性的 NVFP4 浮点格式,宣称能以 4 位元(4-bit)的速度与
效率,实现 16 位元(16-bit)的训练精准度。这项技术的问世,不仅标志着大型语言模
型(LLM)开发的重大飞跃,更为 AI 训练的未来开启了全新的篇章。
cover image of news article
震撼!辉达NVFP4格式突破4位元极限 AI训练效率翻倍。(图:shutterstock)
过去,AI 训练主要依赖 16 位元或 32 位元的高精度浮点格式。尽管後训练量化(PTQ)
已证明 4 位元量化能显着提升推理吞吐量,但在要求极高稳定性和收敛性的预训练阶段
,模型仍不得不依赖 BF16 或 FP8 等更高精度格式。
然而,AI 训练是极其耗费运算资源、电力和时间的过程。在有限的预算和 GPU 周期下,
如何最大化训练效率,成为所有 AI 开发者面临的核心挑战。
辉达发布的 NVFP4 技术,正是为了解决这一痛点。透过将模型权重和活化值的精度降低
到仅 4 个位元,NVFP4 能显着减少记忆体需求、提升算术运算吞吐量,并优化通讯效率
。
这使得 AI 工厂能够在相同的硬体配置下,处理更多的数据和代币,从而加速收敛周期,
并支援更大规模模型的快速开发,最终扩展 AI 所能达到的前沿领域。
辉达为 NVFP4 开发了一套专用的预训练方法,旨在解决大规模训练中的动态范围、梯度
波动和数值稳定性等核心挑战。其关键技术包括:
微区块缩放(Micro-block Scaling):辉达 Blackwell 架构原生支援 NVFP4 格式。与
先前的 MXFP4 格式不同,NVFP4 将微区块大小从 32 个元素减少到 16 个,让每一小组
元素共享一个共同的缩放因子。这种更精细的粒度设计,能最大限度地减少异常值的影响
,降低量化误差,并大幅提升整体模型准确性。
E4M3 高精度区块编码:缩放因子的精确度对於量化品质至关重要。NVFP4 采用更高精度
的 E4M3 缩放因子,并带有额外的尾数位,相较於 MXFP4 仅限於 2 的幂次方(E8M0),
这使得数值表示更为精准,能更好地利用有限的量化区间。
张量分布重塑:预训练期间的梯度和活化值往往带有较大的异常值,这会影响低精度量化
。辉达透过对 GEMM(通用矩阵乘法)输入应用哈达玛变换(Hadamard transforms),将
张量分布重塑为更接近高斯分布的形态。这种方法能平滑异常值,使张量更容易被准确表
示,并在整个训练过程的前向和後向传播中保持透明。
量化保真度维持:为确保训练的稳定性与效率,NVFP4 技术采用了能够在前向传播与後向
传播之间保持一致性的量化方法。例如,选择性二维块式量化等技术,有助於在整个训练
周期中维持张量表示的对齐,最大程度地减少信号失真,并增强整体稳健性。
随机舍入(Stochastic Rounding):与传统的确定性舍入不同,随机舍入确保梯度以机
率方式随机向上或向下舍入,其机率与数值距离两个可表示值之间的距离成正比。这一步
骤对於减少舍入偏差,维持训练期间的梯度流至关重要。
●支援兆级代币规模完整预训练
为验证 NVFP4 的效能,辉达在一个类似於 NVIDIA Nemotron Nano 2 的 120 亿参数混合
Mamba-Transformer 模型上进行了实验。该模型在一个包含 10 兆代币的大规模数据集
上进行了完整的预训练。
实验结果显示,使用 NVFP4 从头开始训练的 12B 模型,其收敛曲线与作为基准的 FP8
模型高度吻合,且在训练过程中没有出现通常困扰超低精度训练的不稳定或发散问题。这
证明了 NVFP4 支援兆级代币规模完整预训练的能力。
此外,辉达将使用 NVFP4 预训练的模型与 FP8 基准模型在一系列下游任务和智慧领域进
行了比较。结果表明,NVFP4 的性能在所有领域都与 FP8 不相上下,证明了其有效性与
可靠性。
辉达正与亚马逊云端科技(AWS)、Cohere、Google 云端、Kimi AI、微软 AI、Mistral
、OpenAI、Perplexity、Reflection 和 Runway 等领先组织积极合作,共同探索 NVFP4
的潜力,将更加巩固其在 AI 技术领域的领先地位,也预示着未来 AI 训练将迈向一个更
高效、更节能的 4 位元时代。
心得:
虽然看不懂,但是好像很厉害。
进化速度变两倍,感觉又要大跃进了。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 116.241.142.240 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1756377335.A.F2A.html
1F:→ oysteromele: 类似32bit升64bit? 42.77.7.186 08/28 18:46
2F:→ motan: 还是模糊运送?116.241.142.240 08/28 18:50
3F:嘘 sonicyang: 什麽烂机翻把AI token翻成代币... 49.239.81.245 08/28 19:05
4F:推 j112233446: 32到64是提高精度、做更大更精确的计 39.12.120.49 08/28 19:47
5F:→ j112233446: 算,文中讲的是量化,降低精度、减少 39.12.120.49 08/28 19:47
6F:→ j112233446: 储存量并且提昇运算效率 39.12.120.49 08/28 19:47
7F:推 oysteromele: 楼上…请问是指降低暂存记忆体的重要 42.77.7.186 08/28 20:01
8F:→ oysteromele: 性吗? 42.77.7.186 08/28 20:01
9F:推 j112233446: 减少暂存就能放参数更多的模型,但通 39.12.120.49 08/28 20:06
10F:→ j112233446: 常在server端更重要的是运算效率,4b 39.12.120.49 08/28 20:06
11F:→ j112233446: its的运算一定比8/16bits快 39.12.120.49 08/28 20:06
12F:推 brightest: 听起来比较像数据压缩 59.115.159.136 08/28 20:09
13F:推 eineFrage: 看起来有点类似不需要flac档(反正木耳 36.231.156.232 08/28 20:13
14F:→ eineFrage: 居多),给你mp3就可以交差了事。 36.231.156.232 08/28 20:13
15F:推 j112233446: 对的 概念上类似 39.12.120.49 08/28 20:14
16F:→ fantasystar: ... 官方新闻稿是六月24,结果钜亨网 36.224.243.191 08/28 21:04
17F:→ fantasystar: 在八月底当新闻贴 36.224.243.191 08/28 21:04
18F:→ fantasystar: 喔,真正的原始新闻应该是这篇: http 36.224.243.191 08/28 21:07
19F:→ fantasystar: s://developer.nvidia.com/blog/nvfp 36.224.243.191 08/28 21:07
20F:→ fantasystar: 4-trains-with-precision-of-16-bit- 36.224.243.191 08/28 21:07
21F:→ fantasystar: and-speed-and-efficiency-of-4-bit/ 36.224.243.191 08/28 21:07
22F:→ fantasystar: 训练用 FP4 的,上一个是 gpt-oss 61.220.35.170 08/28 21:20
23F:→ fantasystar: 不知道 NVFP4 vs MXFP4 可以差多少 61.220.35.170 08/28 21:21
24F:→ yunf: 这是什麽意思一下跳两代的意思? 101.10.80.82 08/28 23:01
25F:→ yunf: 9楼要加上同样硬体才会成立 101.10.80.82 08/28 23:03
26F:推 abyssa1: 告诉你不需要用FHD, 只要从头到尾都VGA111.249.184.155 08/29 00:06
27F:→ abyssa1: 就可以111.249.184.155 08/29 00:06
28F:→ abyssa1: 原本的架构是mismatch的 FP训练 然後4b111.249.184.155 08/29 00:07
29F:→ abyssa1: 推论 他的意思是从一开始就4b训练 很棒111.249.184.155 08/29 00:07
30F:推 Kawasumi: 用有点不伦不类的比喻比较像发明了JPEG218.221.159.109 08/29 04:41
31F:→ Kawasumi: 压缩218.221.159.109 08/29 04:41
32F:推 Kawasumi: 这是不是表示如果下放给一般消费级显卡218.221.159.109 08/29 04:46
33F:→ Kawasumi: 用就能让16GB的VRAM跑32GB的模型?218.221.159.109 08/29 04:46
34F:推 doranako: 感觉是新的压缩技术,蛮屌的,nv独家还 220.129.24.62 08/29 07:22
35F:→ doranako: 是其他非nv也可以用? 220.129.24.62 08/29 07:22
36F:→ Baling99: 我的理解是,把大矩阵切割成小矩阵,小矩 49.216.17.130 08/29 08:07
37F:→ Baling99: 阵里的非零资料采用一个共用指数,然後以 49.216.17.130 08/29 08:09
38F:→ Baling99: 4bit表示除过这个共用指数的结果 49.216.17.130 08/29 08:10
39F:→ DrTech: 靠缩放因子,就是精度有损啊。新闻也太吹 42.73.99.17 08/29 08:26
40F:→ DrTech: 牛了啦。 42.73.99.17 08/29 08:26
41F:→ DrTech: 而且训练结果跟FP8差不多。结论:大厂没人 42.73.99.17 08/29 08:27
42F:→ DrTech: 要用,一般消费者用不到。 42.73.99.17 08/29 08:27
43F:→ WenliYang: 好了啦 瞎吹 27.51.2.92 08/29 08:58
44F:→ kuyfd456: 所以实际效益? 49.216.160.131 08/29 09:09
45F:→ fantasystar: 实际效益就是精确度差一点但是训练成 36.224.243.191 08/29 11:11
46F:→ fantasystar: 本降低很多啊。在抢世界第一的那些人 36.224.243.191 08/29 11:11
47F:→ fantasystar: 我猜不会急着用,但是预训练小一点的 36.224.243.191 08/29 11:11
48F:→ fantasystar: LM 应该就挺不错,反正这些小模型大 36.224.243.191 08/29 11:11
49F:→ fantasystar: 多最後也要做 quantization 36.224.243.191 08/29 11:11
50F:→ fantasystar: 另外我上面有点讲错了,gpt-oss 是後 36.224.243.191 08/29 11:13
51F:→ fantasystar: 训练才用 MXFP4,现在这个新闻是前训 36.224.243.191 08/29 11:13
52F:→ fantasystar: 练就用 NVFP4 36.224.243.191 08/29 11:13
53F:推 eineFrage: 有损压缩就是折衷主义,商用的话追求效 167.247.20.113 08/29 13:32
54F:→ eineFrage: 益比或许可以,研究领域最好还是能喂食 167.247.20.113 08/29 13:32
55F:→ eineFrage: 完整版的资料。 167.247.20.113 08/29 13:32
56F:推 veryGY: 共用bit? 114.45.213.25 08/29 17:34
57F:推 lulululula: ms几个月前有发1.58bit的模型 49.214.0.170 08/29 17:51
58F:推 zipigi: 猛,INT4训练能这麽强真的鬼 220.135.95.92 08/29 19:47
59F:→ chng8371: 反正人脑的解析度也就那样的概念 ai不用223.137.174.240 08/29 21:33
60F:→ chng8371: 太精细纠结?223.137.174.240 08/29 21:33
61F:推 kkes0001: 人脑比ai强很多吧 223.136.104.45 08/29 23:54
62F:推 Morphee: 就是看整张马赛克的a片感觉跟高清一样高 111.240.94.165 08/30 06:59
63F:→ Morphee: 潮迭起。 111.240.94.165 08/30 06:59
64F:推 Aquarius126: 8bits变4bits 硬体需求就变1/4,同样 49.218.145.170 08/30 12:19
65F:→ Aquarius126: 的资源下可以做到4倍的训练量,或是 49.218.145.170 08/30 12:19
66F:→ Aquarius126: 服务4倍的客人,应该算不错吧(?) 49.218.145.170 08/30 12:19
67F:→ Aquarius126: 另外NN训练用了一堆Activation跟Drop 49.218.145.170 08/30 12:22
68F:→ Aquarius126: out,本来就充满随机性跟折损,只要 49.218.145.170 08/30 12:22
69F:→ Aquarius126: 单次训练有效,可以靠大量迭代来逼近 49.218.145.170 08/30 12:22
70F:推 fgkor123: 脑子不用太好,人数来凑 27.51.80.59 08/31 07:04
71F:→ alongalone: 翻译应该有问题,4bit怎麽可能 123.193.254.2 08/31 08:31
72F:推 xl3andbp6: 看ppt ptt长脑子 42.72.85.22 08/31 09:32