作者oopFoo (3d)
看板Soft_Job
标题Re: [讨论] NV发布完全不用人类审查代码的专案
时间Tue Feb 17 07:37:06 2026
我以为你是收钱办事的网军,但现在知道你是带来欢乐的小丑。现在ai公司在系统洒了太多钱在宣传
vibetensor有论文
https://arxiv.org/abs/2601.16238
後面有讲到问题,我稍微节录一下
"The “Frankenstein” composition effect.
A recurring failure mode in generated systems is that individually reasonable components can compose into a globally suboptimal design."
就是架构有问题。
"Incomplete API surface and performance.
VibeTensor intentionally does not aim for full PyTorch compatibility. Many operators, datatypes, and distributed features are missing or incomplete, and performance has not been tuned to match production frameworks."
功能有限,性能有问题。就是toy.
"Validation gaps unique to generated code.
Agent-generated code can pass local unit tests while failing under repeated composition (e.g., multi-step training loops) due to stateful interactions, uninitialized buffers, or accidental global synchronization."
bugs很多,无法解决,小玩一下ok,真跑起来会当机。
"Maintenance, safety, and security.
Machine-generated code can include inconsistent conventions, redundant abstractions, and subtle correctness or security issues. We therefore caution against production use and position VibeTensor primarily as a research and educational artifact."
程式码问题很多,当研究课题ok,但不要当真。
最近很多这类东东,但出来的结果都跟这篇差不多。哪天心情比较好,比较有空再闲聊目前ai写程式的问题与应用。
※ 引述《yamakazi (大安吴彦祖)》之铭言:
: https://github.com/NVlabs/vibetensor
: 详细内容可以问AI
: NVDA 发表了一个完全由AI写的专案
: 人类只给高阶提示词
: 完全不写一行代码
: 不审核一行代码
: 当然跟原本PyTorch 比效能差了一些
: 不过只花了两个月完成
: -----
: Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 58.114.66.74 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1771285031.A.C51.html
1F:推 dream1124: 做得不好是一回事,重点是干麻叫它吐出暨有的东西? 02/17 09:31
其实这是有原因的,因为llms没有"world model",所以需要有Source of Truth.
普通来讲,是人类,compiler来告诉ai错误,然後ai继续修改。
但如果你要完全agent化,那你需要完整的test suite或者program output来比对。
所以这些论文就只好找现有的专案,有程式output做比对或很完整的test suite。
当然这些就会有暨有程式就在训练资料里面的问题。
但就目前看到的,再完整的test suite都不够,没有"world model"是llms的x致命伤。
2F:→ dream1124: 若一个花了数万年的时间翻读人类经典的服务完全背不出 02/17 09:31
3F:→ dream1124: 暨有的东西,那才算失败吧?因此生得出来根本就不奇怪 02/17 09:32
4F:→ dream1124: 但如果从使用者立场看,我要它背暨有东西给我干麻啊? 02/17 09:33
5F:→ dream1124: 要那些东西我直接用最传统的储存备援方案就好了啊~ 02/17 09:34
6F:→ dream1124: 要实验应该做那些从未出现且没太多相似物可模仿的东西 02/17 09:37
7F:→ dream1124: 到时它无人介入就生得出来又没有大小问题再来吹也不迟 02/17 09:38
8F:→ hidog: 原本转贴的那位只是在吹AI,搞不懂他跑来这边吹干嘛,去骗 02/17 09:45
9F:→ hidog: 不懂的还行 02/17 09:45
10F:推 WTS2accuracy: 就说这些无脑吹每个言论都菜到不行 拉帮结派找一堆 02/17 12:58
11F:→ WTS2accuracy: 名人言论背书也盖不过的菜味 AI明明很好用但在这些 02/17 12:58
12F:→ WTS2accuracy: 无脑吹描述後都觉得不香了 哈 02/17 12:58
13F:推 lturtsamuel: 这样看起来 最适合ai的语言搞不好是纯函数式 摒弃内 02/17 13:22
14F:→ lturtsamuel: 部状态 02/17 13:22
15F:→ lturtsamuel: 反正写函数式是写的时候痛苦 维护的时候爽 02/17 13:22
16F:推 yamakazi: 你知道你的大神已经已经开始从不用AI写扣到变成八成用cl 02/17 13:58
17F:→ yamakazi: aude code吗 02/17 13:58
18F:推 nckuff: 别人在讲AI不能没有人类维护 你在讲八成AI生 02/17 14:29
19F:→ nckuff: 可以滑坡成这样 蛮厉害的 02/17 14:29
20F:推 dream1124: 八成程式码都抄前人写的或软体产生的很稀罕吗? 02/17 14:40
21F:→ dream1124: 别讲得像你从没用过生成工具或去StackOverflow抄好吗? 02/17 14:41
22F:→ dream1124: 根本大惊小怪,一本正经讲干话,笑死人了 02/17 14:43
23F:推 viper9709: 推分享 02/17 16:50
24F:推 Romulus: 怎麽可能是网军 哪个zz公司会出钱请他 02/17 18:47
※ 编辑: oopFoo (58.114.66.74 台湾), 02/18/2026 10:27:28
25F:推 dream1124: 原PO 我了解他们选择叫AI重新造轮子的考量,但这是实验 02/18 14:29
26F:→ dream1124: 这实验的方法显然不够完善。与其说这在测AI的潜力, 02/18 14:30
27F:→ dream1124: 不如说这是背书考试,测它能否默写出内容够长的经典 02/18 14:31