作者sxy67230 (charlesgg)
看板Tech_Job
标题Re: [新闻] 曾害辉达市值一夜喷掉17兆! DeepSeek
时间Sat May 17 19:21:57 2025
很多国外新闻这几天比较专业的都是关注在DeepSeek的新论文,详细列出了很多DeepSeek技
术细节如何省流的数据,像是KV Cache的成本还有透过软体整合协同提升硬体的使用效率(
3F
S无疑是工艺品的等级),揭露了未来减少GPU、Disk跟CPU之间的通讯无疑是下一个软硬整
合加速指标。
当前开源生态甚至是Gemini都已经将DeepSeek的GRPO当作模型对齐Reasoning的新范式了,
实际也是证明很好用有效又省钱,最近也是蛮多篇Paper探讨Reward作为一种弱监督信号为
什麽有用又不会像DPO一样会过度拟合训练数据的好处。题外话,连NVIDIA 的Nemotron最新
一代也采用这样的Post training 新范式。
然後文章没揭露的是很多闭源模型当前为了alignment最新的时事资料或基於用户反馈的校
正成本,实际上谷歌、Claude跟OpenAI在这块的维护上每年都要亏损十几亿美金,这东西是
很多小企业维护不来的。
然後GPU的Infra群集这几年也是不断在往上增加,反而训练的成本才是往下掉的。谷歌跟Op
enAI为了维持服务响应花费的不比训练建构的群集还要少。
我个人认为这种文章针对性蛮强的,重点也不是在DeepSeek系统架构上的缺失,真的要我说
的话,当前DeepSeek比较大的问题是市场上具有Reasoning的LLM竞品在DS开源方法以後开始
暴增,但DeepSeek没有资源来调优当前自己的R1模型(毕竟公司多数都是研究员,可以看出
团队会更想把精力花费在研究上)。
然後实际上普通人对Reasoning的需求就不大(吉卜力会爆红显示普通人对AI的期望会更像
有趣的玩具),企业有资源的会选择自己建构,没资源的会采用Agent方式让多个响应比较
快的模型建构特定场景的任务替代Reasoning LLM。
差不多4酱
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.10.109.14 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1747480919.A.242.html
1F:→ keter007 : 难用,微调成本极高,搞死用户123.192.217.254 05/17 19:37
2F:推 cityhunter04: 对使用者来说,难用就不会有人用!114.24.92.6 05/17 19:43
3F:→ cityhunter04: 实用性才是AI的重点…114.24.92.6 05/17 19:43
※ 编辑: sxy67230 (101.10.109.14 台湾), 05/17/2025 20:08:25
4F:→ theedge : 难用就不会有人用? 那Linux呢? 42.73.60.185 05/17 21:45
5F:→ DrTech : 难得认真文。普通人谁管你reasoning 42.73.94.186 05/17 22:10
6F:→ DrTech : ,直接给我出个有趣的图比较有用42.73.94.186 05/17 22:10
7F:→ DrTech : inference scaling law 研究性质远42.73.94.186 05/17 22:14
8F:→ DrTech : 超过实用性质42.73.94.186 05/17 22:14
9F:推 JoSue : 推111.241.128.249 05/17 22:42
10F:嘘 flinch : 无黄金锚定的美元 不配叫美金42.70.91.247 05/17 23:25
11F:推 questionboy : 认真文 推114.45.60.220 05/17 23:25
12F:推 zyliu : 推认真文218.35.15.123 05/18 01:22
13F:推 pponywong : Linux 其实在工程上不难用阿 118.160.135.12 05/18 07:42
14F:→ pponywong : 同样开发软体 Linux 方便太多了 118.160.135.12 05/18 07:43
15F:推 DA3921999 : DS最大的问题就是直接开源教大家怎27.53.147.72 05/18 13:12
16F:→ DA3921999 : 麽做,这样一来一回注定输偷吉卜力 27.53.147.72 05/18 13:12
17F:→ DA3921999 : 的 27.53.147.72 05/18 13:12
18F:嘘 ImHoluCan : 好的叫deepseek生成个吉卜力来,不111.83.87.172 05/18 16:50
19F:→ ImHoluCan : 然就毕嘴111.83.87.172 05/18 16:50
文组网军有够可怜的,谈技术不懂技术难怪年薪不到百万:)
※ 编辑: sxy67230 (101.10.109.14 台湾), 05/18/2025 18:06:11
※ 编辑: sxy67230 (101.10.109.14 台湾), 05/18/2025 18:07:48
20F:推 TameFoxx : 如果企业要选落地的模型 现在只能选 58.114.188.80 05/18 21:59
21F:→ TameFoxx : 中国的 58.114.188.80 05/18 22:00
22F:推 jamesho8743 : Linux对工程师来说又不难用 它也不 27.53.25.95 05/19 19:12
23F:→ jamesho8743 : 是给一般人用的 27.53.25.95 05/19 19:12
24F:→ jamesho8743 : 公司电脑天天都在用Linux 除了游戏 27.53.25.95 05/19 19:15
25F:→ jamesho8743 : 感觉不出跟Windows有什麽差别 反正 27.53.25.95 05/19 19:15
26F:→ jamesho8743 : 你要的大概就是浏览器 27.53.25.95 05/19 19:15
27F:嘘 CCNCCN : 原来还有人不知道这炒股用 203.74.156.121 05/22 09:19