作者pl132 (pl132)

看板Tech_Job

标题

[新闻]不，你无法用 600 万美元复制一个 DeepSee

时间Wed Jan 29 10:58:37 2025

不，你无法用 600 万美元复制一个 DeepSeek R1 https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/ 中国 AI 新创企业 DeepSeek 最新发布的 R1 模型震惊美国股市，关键在於其相对低廉的训练成本，不过深入分析其过程就知道，并不是花 600 万美元就能复制一个相同的模型。无论华尔街玩的是什麽套路，DeepSeek R1 模型真正让人惊叹的，是它极度便宜的训练成本，根据 DeepSeek 宣称，训练成本仅 557.6 万美元，几乎是其他科技巨头大型语言模型的十分之一成本，这个费用也差不多是一位 AI 主管的年薪而已。这个惊人的宣示实际上未必如此惊天动地，我们需要一步步拆解他们的模型训练方式，就能了解其中奥妙。首先，DeepSeek 和 R1 模型并非一步登天，R1 模型的训练费用其实和去年底发布的 V3 模型相同，而 V3 模型中的多数功能又和 2024 年初发布的 V2 模型共用。在 V2 模型里，他们导入了两个重要的元件：DeepSeekMoE 和 DeepSeekMLA，前者代表了多重专家混合（Mixture of Experts），和 ChatGPT4 一样，他们将训练出的 AI 分为多种专家，根据对话内容调用合适领域的专家，以达成更精准而高效率的回应。後者则是多头潜在注意力机制（Multi-Head Latent Attention），在 AI 对话中，需要载入模型和文本，每个 token 需要对应的 key 和 value，MLA 则能够压缩 value 的储存空间，进而减少记忆体需求。 https://is.gd/gzBeWB ▲DeepSeek V3 模型架构图。（Source：Github）到了 V3 模型，他们再根据以上基础，导入负载平衡和多重 token 预测机制，进一步提升训练效率，根据 DeepSeek 宣称，训练 V3 模型总共使用 278.8 万 H800 GPU 工时，依每工时 2 美元推算，整体训练成本就是 557.6 万美元。而 R1 模型的训练成本据称与 V3 模型相同，换言之，想要做出 R1 模型，并不是拿 H800 跑 280 万个工时就能做出来，还必须有前置研究、反覆实验和前置演算法架构。相反地，从目前实测结果来看 DeepSeek R1 的表现与 ChatGPT O1 确实不相上下，甚至有自己的优势，既然 DeepSeek 是开源架构，就代表其他科技巨头可以用相似的模组，投入上百万或上千万个更高阶的 H100 GPU 工时去训练模组，如此则能获得十倍於 DeepSeek R1 的成果。从这个角度来看，你觉得 NVIDIA 有什麽好紧张的吗？ -- 推 pb220918:不爽可以当禽兽五楼是禽兽!! 10/04 22:12 → pb220918:盖 10/04 22:12 → pb220918:盖 10/04 22:12 → pb220918:盖 10/04 22:12 → Davisss:我是禽兽我真爽我在骑1楼 10/04 22:13 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.26.136.149 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1738119530.A.F11.html

1^F：推 boards : 如果成本这麽低 112.78.81.247 01/29 10:59

2^F：→ boards : 全世界的核电厂也该关闭了 112.78.81.247 01/29 10:59

3^F：→ boards : 中国拉一根暗管，偷接OpenAI 、Gemi 112.78.81.247 01/29 11:00

4^F：→ boards : ni ，资料还会回传中国！ 112.78.81.247 01/29 11:00

5^F：→ tgyhuj01 : 台湾已经关了阿你质疑台湾政府? 36.227.83.81 01/29 11:11

6^F：推 bella1815 : DeepSeek有5万个H100，碍於禁令不 61.228.165.120 01/29 11:27

7^F：→ bella1815 : 能明言 61.228.165.120 01/29 11:27

8^F：→ kevinmeng2 : 世界怎麽跟得上台湾？终於跟上了 219.70.152.87 01/29 11:47

9^F：推 shter : 又不是只有训练AI要用电，现在一堆 1.169.73.118 01/29 12:27

10^F：→ shter : 云端服务算力主机在做其他应用产品 1.169.73.118 01/29 12:28

11^F：→ shter : 几年前那些大数据资料中心越存越多 1.169.73.118 01/29 12:29

12^F：→ shter : 累积下去能源需求只会扩张而已 1.169.73.118 01/29 12:29

13^F：推 kingof303 : 一看就知道中国在骗人多呆才相信 61.227.212.152 01/29 12:42

14^F：嘘 cityhunter04: 最大的优势就是会帮忙言论审查…厉 114.24.100.161 01/29 12:48

15^F：→ cityhunter04: 害厉害！ 114.24.100.161 01/29 12:48

16^F：推 zombiechen : 前天吹deep search 的帐号今天都躲 118.171.11.104 01/29 13:00

17^F：→ zombiechen : 起来不见了 118.171.11.104 01/29 13:00

18^F：推 drea : DS厉害的是晶片不用算入成本，无敌 111.252.83.115 01/29 13:13

19^F：推 peter6666712: 十倍工时 = 十倍成果笑了 1.200.246.84 01/29 13:19

20^F：推 afking : 问就是继续买进 49.217.130.119 01/29 13:53

21^F：推 kaltu : 这整个成本什麽时候audit报告会出来 100.8.245.106 01/29 14:05

22^F：→ kaltu : ？ 100.8.245.106 01/29 14:05

23^F：→ jhangyu : 有够lag，berkley实验室 101.9.131.231 01/29 14:17

24^F：→ jhangyu : 已经用30美元复制成果了还在洗 101.9.131.231 01/29 14:17

25^F：嘘 straggler7 : 纠结在成本怎麽算没太大意义 36.229.59.188 01/29 14:24

26^F：推 admon : 成本也许夸大但从结果论看并不是全 125.224.210.22 01/29 14:53

27^F：→ admon : 假 125.224.210.22 01/29 14:53

28^F：嘘 jason90814 : 「并不是拿 H800 跑 280 万个工时180.217.192.111 01/29 15:03

29^F：→ jason90814 : 就能做出来，还必须有前置研究、反180.217.192.111 01/29 15:03

30^F：→ jason90814 : 覆实验和前置演算法架构」这段到底180.217.192.111 01/29 15:03

31^F：→ jason90814 : 在公杀小，阿人家研究跟架构都开源180.217.192.111 01/29 15:03

32^F：→ jason90814 : 了，GPT那种闭源的才是无法复制吧180.217.192.111 01/29 15:03

33^F：推 jason90814 : 还在提晶片价格的也是颇ㄏ租房跟180.217.192.111 01/29 15:08

34^F：→ jason90814 : 买房搞不清楚180.217.192.111 01/29 15:08

35^F：推 hensel : MOE的e不用先训练喔 36.230.44.78 01/29 15:09

36^F：嘘 jackey0117 : 开源的优势屌打那些贵森森的商用的 116.241.209.33 01/29 15:27

37^F：→ cphe : 这样讲这不就代表中国的AI研究实力 42.79.160.68 01/29 15:38

38^F：→ cphe : 更强吗 42.79.160.68 01/29 15:38

39^F：推 Alphaz : 坐等GAI卷到免费支那加油好吗 150.117.201.51 01/29 15:59

40^F：推 swimbert : 哇终於有人承认模型更好了 123.204.137.86 01/29 16:09

41^F：推 samarium : 有部分理工男对核电跟中国特别有感 49.216.129.35 01/29 16:38

42^F：→ samarium : 觉柯柯 49.216.129.35 01/29 16:38

43^F：→ boards : https://i.imgur.com/lZuXZhu.jpeg 101.10.44.11 01/29 16:53

44^F：→ boards : 你各位啊~不要再传啦！ 101.10.44.11 01/29 16:53

45^F：→ boards : 今天用电占比： 101.10.44.11 01/29 16:53

46^F：→ boards : 再生能源45%是核电4.3%的十多倍 101.10.44.11 01/29 16:53

47^F：推 naushtogo : 中国讲的数字你也信？ 1.146.134.27 01/29 17:03

48^F：→ oopsskimo : 训练自己的AI出来发大财223.139.131.221 01/29 17:10

49^F：嘘 navysoider : 有关中国跟共产党的话题会没有答案 1.200.140.93 01/29 17:17

50^F：→ navysoider : ，共产党的人工智慧 1.200.140.93 01/29 17:17

51^F：→ BoXeX : 在想本板文组是不是有点多啊 111.250.18.76 01/29 17:30

52^F：推 b258963147 : 越卷越好，坐等 gpt免费嘻嘻 111.254.15.138 01/29 17:43

53^F：→ much0112 : 如果结果只是演算法上的问题114.174.185.237 01/29 18:21

54^F：→ much0112 : 而不是工具上的限制114.174.185.237 01/29 18:21

55^F：→ much0112 : 美国AI大战等着败114.174.185.237 01/29 18:21

56^F：→ much0112 : 1亿人拼不过14亿人114.174.185.237 01/29 18:21

57^F：推 MVPkobe : 确实最後一段跟我想法一致 42.72.87.167 01/29 19:19

58^F：推 bella1815 : 连美国人口多少都错的离谱 61.228.165.120 01/29 20:04

59^F：→ lavign : LLM都还在吃2017 Transformer老本 42.71.91.63 01/30 05:46

60^F：推 npkalala : 同意51楼，真的有人以为要达到人脑 42.77.24.135 01/30 10:02

61^F：→ npkalala : 思考只有架构问题，一堆文组 42.77.24.135 01/30 10:02

62^F：推 Brioni : 有明确进步还蛮屌的203.204.115.205 01/31 22:34

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Tech_Job 板

[新闻]不，你无法用 600 万美元复制一个 DeepSee

热门看板

赞助商连结