Tech_Job 板


LINE

建议先去看LATS 比较好理解什麽叫方法论 简单说R1是一套"如何让LLM可以做深度思考"的方法论 原本要让LLM做深度思考 之前的做法一律都是COT 比如把每次LLM的输入输出当作一个节点 把多个节点做评分 最终选择整条链评分最高的项目 即MCTS概念 这就像是alphago那样 每次棋步後面都要估算後面几十步对於这步的总评分(胜率) LATS就是用LangGraph去实现MCTS的COT 这是方法论 所以可以套用任何LLM 你替换任何LLM LATS都能提升输出成果 GPT-o1(原q* project)采用人工先写好大量的推论步骤去保证COT品质 并非直接让AI去随意生成许多条节点再自我评分 而是人工先标注什麽是好推论 因此人工撰写教科书等级的推论就是o1高成本最主要的因素 (这也是CloseAI藏起来的主因 这个很贵不能给其他人看到XD) 就像alphago master需要挖出所有顶尖对局棋谱然後数位化 R1则是舍弃了节点拆步骤思维 直接让LLM去随意探索可能方式 在这个情况下R1反而做出了各种有创意的推论方式 就像是alphago zero 自行探索反而下出自己一套逻辑 如同LATS可以替换任何的LLM R1也可以使用任何的LLM去做这件事 实验室复现R1是指拿一个LLM 做这个方法论 看可以拿到AI怎麽做推论过程 复现的结论也高度一致 使用越优秀的LLM当作基底 可以拿到更好的推论过程 所以任何LLM都可以做R1 就跟任何LLM都可以套LATS类似 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.98.6 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1738140736.A.CDC.html
1F:推 tr920 : Openapi 都跳出来质疑有distill 痕 123.194.12.84 01/29 17:02
2F:→ tr920 : 迹了,你回那麽呛小心被打脸啊 123.194.12.84 01/29 17:02
3F:嘘 quartics : 你说的跟本不是什麽新技术,也跟di 42.78.171.125 01/29 17:07
4F:→ quartics : stilled 不冲突 42.78.171.125 01/29 17:07
马上就飞一只出来了 不是什麽新技术 那openai google meta怎麽不先做(挖鼻
5F:嘘 whizz : 不然这样啦 deepseek开直播训练 1.168.110.29 01/29 17:19
6F:→ whizz : 用2000块 H800训练来看看啊 1.168.110.29 01/29 17:19
才刚讲完马上就来两个青鸟XDDDD 都有实验室用30镁就复现了
7F:推 tr920 : 可以用30镁就复现,那DS花550万镁 123.194.12.84 01/29 17:34
8F:→ tr920 : 干嘛XDD!! 123.194.12.84 01/29 17:34
一个是先人研究出方法 一个只是照用别人的方法 你会说你高中就学会牛顿高斯想几十年的东西 所以牛顿高斯在浪费人生?
9F:推 tr920 : 以你的逻辑,R1是用人家砸大钱训练 123.194.12.84 01/29 17:39
10F:→ tr920 : 出来的LLM来前进,那些砸大钱的公 123.194.12.84 01/29 17:39
11F:→ tr920 : 司在浪费人生? 123.194.12.84 01/29 17:39
"可以用30镁就复现,那DS花550万镁干嘛XDD!" 这句话是你说的又不是我说的 我现在一整个黑人问号
12F:推 tr920 : 一句话啦,你敢保证Deepseek没有用 123.194.12.84 01/29 17:43
13F:→ tr920 : Distill技术?如果不敢保证,就把 123.194.12.84 01/29 17:43
14F:→ tr920 : 随便骂人青鸟字眼吞回去 123.194.12.84 01/29 17:43
对不起让你误会了 我绝对没有说你是青鸟
15F:推 master32 : 我是觉得尽量不要一开始就把人打入 111.253.56.238 01/29 18:14
16F:→ master32 : 某一族群,科技板不该这样 111.253.56.238 01/29 18:14
17F:推 lusifa2007 : 政治立场带入单纯技术讨论 硕士用 114.42.230.28 01/29 18:34
18F:→ lusifa2007 : 鸡腿换的? 114.42.230.28 01/29 18:34
https://i.imgur.com/2BDUqa7.png 如果要像这样"纯技术讨论" 我还是继续用鸡腿吧
19F:推 straggler7 : 纯技术讨论? 我信你个鬼! 36.229.59.188 01/29 18:55
20F:→ aria0520 : 但我也不是耶XD 单纯就事论事103.224.201.110 01/29 19:20
21F:→ aria0520 : 看我以往推文就知道我不是XD103.224.201.110 01/29 19:21
抱歉 我不该说你是青鸟
22F:推 ctw01 : 这样受益良多感谢,另外想询问因为 180.218.44.106 01/29 19:26
23F:→ ctw01 : deepseek 似乎没有公开他们这套方 180.218.44.106 01/29 19:26
24F:→ ctw01 : 法论是对哪个LLM模型,现在openai 180.218.44.106 01/29 19:26
25F:→ ctw01 : 质疑distill 是质疑他们使用的LLM 180.218.44.106 01/29 19:26
26F:→ ctw01 : 对chatgpt distill然後再用这套方 180.218.44.106 01/29 19:26
27F:→ ctw01 : 法论吗? 180.218.44.106 01/29 19:26
这麽说很有可能 deepseek v3本身应该就是干了很多资料XD
28F:→ ctw01 : 因为本身不是做NLP相关的,以前也 180.218.44.106 01/29 19:27
29F:→ ctw01 : 没接触多少ai研究,如果问了蠢问题 180.218.44.106 01/29 19:27
30F:→ ctw01 : 敬请见谅 180.218.44.106 01/29 19:27
LLM终於来到了zero的时代 我对这点是蛮兴奋的 ※ 编辑: KanzakiHAria (36.231.98.6 台湾), 01/29/2025 19:44:13
31F:→ BoXeX : 反而觉得distill还好 那些模型 111.250.18.76 01/29 20:19
32F:→ BoXeX : 在训练时也没少盗用别人着作权文章 111.250.18.76 01/29 20:20
33F:→ lavign : LATS也是用MCTS,只是评分方式改成 220.134.57.143 01/29 20:32
34F:→ lavign : 用LLM自己的机率函式? 220.134.57.143 01/29 20:32
自己把生出来的subtree再丢给LLM自己评分择优 不一定是打分数 只要能选较好的路径 当然衍生方式就很多 要不要另外用一个LLM专门做路径的评分? 就可以发下一篇XD 或者专门训练一个评分系统 发下一篇 博士生要论文生论文就是这样做 ※ 编辑: KanzakiHAria (36.231.98.6 台湾), 01/29/2025 20:44:12
35F:推 tanby : 知识蒸馏要有模型 OpenAI没有公开 111.250.8.222 01/29 22:33
36F:→ tanby : 模型 DS顶多用OpenAI模型去标注数 111.250.8.222 01/29 22:33
37F:→ tanby : 据 111.250.8.222 01/29 22:33
38F:推 janeration : 没有公开不代表DS拿不到啊 101.9.190.172 01/30 00:33
39F:嘘 pig2014 : 反对你的人就说是青鸟是三小,反民 123.195.185.38 01/30 18:01
40F:→ pig2014 : 进党也不要反到这麽弱智操,很丢返 123.195.185.38 01/30 18:01
41F:→ pig2014 : 民进党派的脸 123.195.185.38 01/30 18:01
只会嘘文的ID 花这麽久才找到这麽小的嘘点 ※ 编辑: KanzakiHAria (36.231.97.33 台湾), 01/30/2025 18:42:03







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP