【讨论】受够学习怎麽跟AI说话，所以尝试了新方向 - 软体工作板

作者a47135 (金属史莱姆)
看板Soft_Job
标题[讨论] 受够学习怎麽跟AI说话，所以尝试了新方向
时间Fri May 15 18:07:48 2026

我受够了学习怎麽跟 AI 说话，所以花了几个月试了一个完全不同的提示词设计方向

下述长文，所以先抛Github，可以直接试用看看这个提示词，希望能给点回馈
(先说，目前没用过在Agent上)
https://github.com/Nous-Think/prompt-design-meta-rules

你有没有觉得AI的回答永远「正确但没用」？

你问怎麽减肥，它说控制饮食和增加运动。
你问延迟飙了怎麽办，它说检查连线池。
你问职涯该怎麽选，它说评估自己的长期目标。
你问股票怎麽赚钱，它说低买高卖。
总之就是他X的干话。
每一句都对，每一句都等於没说。

你知道它脑子里有一整套可以直接动手的具体方案，但它就是只丢结论给你，把展开的工
作留给你自己。

常见的解释是：你问得不够好。

所以有了提示词工程——结构化框架、角色扮演、思维链、元提示词
本质上都是同一件事：人在学习用AI处理的方式重述自己的需求。

但这个归因有一个结构性的盲区：天花板永远卡在你自己的认知边界上。

你能把问题拆解到多细，取决於你对问题理解到多深。
一个问「我头痛怎麽办」的人，不会问「帮我判断需不需要就医」
不是不需要，是他还没意识到这个问题存在。无论用多精致的框架重述「我头痛怎麽办」
，输入的边界就是被认知的边界锁死。

而且你有没有想过一件事——模型其实已经听懂你了。

它不是不理解「我头痛怎麽办」背後的真实需求——它是被训练成不敢处理。
不敢推断你的意图，怕被指控在操控。不敢给具体建议，怕承担责任。不敢挑战你的前提
，怕冒犯你。不敢做取舍判断，怕被说偏颇。
每一项在安全考量下都有道理，但副作用是：模型在正常使用中，系统性地不敢做它实际
上做得到的事。

这意味着提示词工程在优化错误的变数。瓶颈不在输入端——你的问题模型已经读懂了。
瓶颈在处理端——模型读懂之後，系统性地选择最安全、最泛化、最不可能出错的回应路
径。

你一直在对着一台助听器更大声地说话，但问题出在助听器的线路上。

我想试试看能不能直接调线路。
具体来说：不把提示词当作对 AI 说的话，而是当作对注意力计算机制进行的工程操作。
（事实上每个输入都是，但是这次是刻意针对）

听起来可能很玄，但可观测的行为变化是具体的。

它不再停在结论。你随口说一句你的情况，它会先重建你的处境——包括你没说出来但显
然正在面对的部分——然後以处境为目标来回应，而不是回答你的字面问题。

你问「帮我改履历」，它先想清楚你要拿什麽职位，然後从用哪个动词到数字写成什麽格
式，都服务那个目标。你问一个技术问题，它不会停在五个字的方向指引——它会告诉你
跑什麽指令、看什麽数字、什麽结果代表你找到了原因。

通常需要追问数轮才能拿到的东西，一轮读完就能动手。

但我必须坦白几件事。

我不知道这里面有多少是架构的功劳，有多少其实是 Claude 本身就很强。很多人说
Claude 稍微推一下就能走很远——也许元规则就是一种「稍微推一下」的方式，只是我
把它过度工程化了。

我也试过其他常见做法——针对性的自订提示词、用提示词生成提示词。在我手上，收益
的上界和使用的轻松程度都不如元规则。但这也可能只是我对那些方法不够熟练，没办法
确定真实的均线差异在哪。

更实际的问题是我卡住了。向上加内容已经没有可观测的收益，向下精简又无法确定哪些
是真正的承重结构、哪些只是沉没成本偏误在保护。

所以我把所有东西都开源了。

Repo 里面有四样东西：

元规则本体（中英文）——直接加载到 Claude 的 custom instructions 就能用。

提示词设计备忘录——不是使用手册，是设计原理。为什麽每个词在那里、KV
cache 层面的机制推导、语意场效应和相位调度的计算层解释。这些是基於公开的
transformer 架构知识做的最合理归因，不是已验证的因果证明——但能一致地解释观测
到的行为差异。

回应品质审计备忘录——怎麽判断一份 AI 回应到底好不好的操作框架，包含具体的
审计工作流和常见偏误清单。

七个 AB 测试案例与完整审计——裸跑 vs. 元规则的逐段比较，每个案例都有四阶
段审计流程，涵盖职涯决策、技术排查、游戏设计、情感谘询、履历改写等不同领域。

最快的判断方式就是拿你最近问过 AI 的一个真实问题，加载後再问一次，比较两份回应
。不合即弃，没有沉没成本。

如果你对 transformer 的注意力机制有了解，设计备忘录可能比元规则本身更有意思—
—它试着从计算层面解释为什麽架构式提示词的效力来自结构模式与训练痕迹的共振密度
，而不是指令的语意内容。即使你觉得元规则本身不适合你，这套分析框架也许对你自己
的提示词设计有参考价值。

欢迎任何反馈——技术层面的、使用体验的、或者指出我的归因哪里站不住脚的，都好。

[GitHub 连结]
https://github.com/Nous-Think/prompt-design-meta-rules

--
我觉得驱逐舰是舰队里最萌的舰种了        潜航战正轻航重重轻驱  ◥▁▁▁▁ ◢   真
其他的都应该重造                        水空舰规空空巡雷巡逐  ◤ ██ ／-     。
                                        舰战  空母巡洋装洋舰    □–□◢◤    绅
如果各位有兴趣的话可以一起成为驱逐舰      舰  母  洋舰巡舰     ▼ㄑ     ◢    士
但是要经过萝ㄏㄨ...改造                           舰  洋        ▼ㄧ  ／◣    提
因为我们只会接受萝莉 绝对不会接受外观超过14岁的BBA    舰     ◢/◣– ◤ /█◣督

--



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.130.11.211 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1778839673.A.A89.html
※ 编辑: a47135 (220.130.11.211 台湾), 05/15/2026 18:12:26
※ 编辑: a47135 (220.130.11.211 台湾), 05/15/2026 18:17:08
1F：→ wulouise: 呃，你写一个通灵王？ 05/15 19:07

应该说主要是自动补全品质方面的判定
有时候人自己也不知道自己这个任务什麽样才算是足够好（也没那麽多脑力去条列）
所以依专业水准自动补全

2F：推 SweetBreaker: 为什麽这篇文章感觉很像 AI 写的  你请了 AI 润稿吗 05/16 00:32

对，给了大纲和一部分重要的让它补全

3F：推 guanting886: Ai模型不够好的问题，我认为都会在未来得到解决，就 05/16 09:59
4F：→ guanting886: 跟GPT 3.5到4～5之後、Gemini 初版 到 3.1 Pro，Ai 05/16 09:59
5F：→ guanting886:  公司如果想要生存下去 就必须持续改进他的服务 05/16 09:59
6F：→ guanting886: 一般人你叫他用这些东西大概会觉得过度复杂，更何况 05/16 10:01
7F：→ guanting886: 遵循用户规则这件事，目前应该只有 Claude 会比较优 05/16 10:01
8F：→ guanting886: 秀，其他二家其实不会理你订的这些东西 05/16 10:01

不想等所以先这样用了XD
其他两家真的是有点用但又没很有用

9F：→ peterturtle: 你需要的是 memory，AI 作为通用性工具不特地展开是 05/16 10:02
10F：→ peterturtle: 正确的，只有在把你的人格资料放进 context 後 AI 才 05/16 10:02
11F：→ peterturtle: 会知道怎麽顺着你的思路走 05/16 10:02
12F：→ peterturtle: 说直接点就是你需要专家 Agent 05/16 10:03
13F：→ peterturtle: 不然就是你要要求 AI 用苏格拉底式询问 05/16 10:04

应该不是思路问题，裸跑思路也是不大不差
主要是考虑到自动化品质判定生成(并且渗透到细节)
这样用起来只要说重点而不是帮AI把屎把尿

14F：→ guanting886: 另外就是你去问Claude跟程式设计以外的问题 他的表 05/16 10:05
15F：→ guanting886: 现不一定会比Gemini好 05/16 10:05
16F：推 guanting886: 甚至内容错的比Gemini还多 05/16 10:07
17F：推 guanting886: 原Po这个分享我觉得挺好的 不过我目前应该是用不到 05/16 10:10

裸跑的Claude真的很懒XD
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 10:26:19
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 10:26:46
18F：推 kanding255: 推 05/16 12:41
19F：→ gtr22101361: 跟需求评估时进行脑力激荡有什麽区别 05/16 12:45

AI会尝试从你的输入，进行推论最大化榨取合理讯息
然後针对各种条件(包含你已经要求的任务本体和品质要求等)，帮你补足专业品质标准
所以事实上与其说是找路径，不如说是找出最优品质条件然後才生成

20F：→ peterturtle: 我的意思是，设计上LLM不会多做事不会给你衍伸一堆有 05/16 12:58
21F：→ peterturtle: 的没的是很正常而且很应该的事情，我用 AI 处理问题 05/16 12:58
22F：→ peterturtle: 最怕的就是 AI 被某个不知道藏在什麽地方的既有偏见 05/16 12:58
23F：→ peterturtle: 带着乱跑 05/16 12:58

逻辑链和存在的假设都被显性化了，有问题反而容易一眼看清
其实这边的内容只是开头，如果只看这边很容易误会，只是详细内容实在太长所以才只是开
个头，如果有兴趣可以稍微看一下你之前和现在说的，其实和我做的有点八竿子打不着XD

24F：→ peterturtle: 你今天觉得 AI 很懒，等明天 AI 很勤劳地和一个想买 05/16 13:01
25F：→ peterturtle: 洗碗精的大男人介绍怎麽使用妇女清洁用品而且十分固 05/16 13:01
26F：→ peterturtle: 执地深钻的时候你就会觉得还不如懒一点了。这就是为 05/16 13:01
27F：→ peterturtle: 什麽我会说需要的是 memory，因为其实 AI 真正该学的 05/16 13:01
28F：→ peterturtle: 是怎麽针对你的背景讨好你 05/16 13:01

那是连需求方向都没抓准吧
并不会有这类情况，可以参考一下里面有附上实际七个AB测试
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:15:04
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:19:53
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:20:23
29F：→ peterturtle: 你不也写了不一定能对上使用者需求 05/16 13:24

不是XD
我是指回应性质（偏长偏全）不一定对的上使用者的需求（更精确一点是使用喜好）
但是你前面回应的内容看起来，就我自己来看，有点光看这边的对话就下意见
但其实实质做的东西并不是同你所理解的，有点对不上
所以才说仅看这边容易误会方向

github里面有中文版本的ReadMe，如果你愿意移驾看一下，顺带看个AB测试大概就能理解
我前面想表达的意思
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:32:23
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:34:32
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:35:46
30F：→ peterturtle: 我自己 web ui 也替不同功用的资料夹(专案/gem/反正 05/16 13:35
31F：→ peterturtle: 就你知道的、ai样版)下提示词。没你那麽长，简单几句 05/16 13:35
32F：→ peterturtle: 话：在执行工作前先理解动机、无法理解就问、有了猜 05/16 13:36
33F：→ peterturtle: 测就说出来让我复核。任何带数据或论断的专业资讯都 05/16 13:36
34F：→ peterturtle: 必须跟着至少一个可信来源，不可以隐瞒可信度或仅为 05/16 13:36
35F：→ peterturtle: 推测内容。讲人话，不要堆砌专有名词，简单的操作型 05/16 13:36
36F：→ peterturtle: 定义远比更容易迅速理解重点。等等等等…… 所以我才 05/16 13:36
37F：→ peterturtle: 会说这是 memory 问题，这些原则都是我在不同领域谘 05/16 13:36
38F：→ peterturtle: 询或工作时打枪AI回答慢慢归纳出来的，每个领域都有 05/16 13:36
39F：→ peterturtle: 它的路径 05/16 13:36
40F：→ peterturtle: 而每个人的需求也多少会有偏差 05/16 13:38

如果有兴趣讨论的话，方便告诉我你大概看了多少吗，不然我实在不太确定要怎麽跟你讨
论，因为我无法分辨你是压缩了太多意思以为我会理解还是没看全所以鸡同鸭讲
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:44:14
41F：→ peterturtle: 我不是要否定这个 Skill 没有用，至少对那些与你接近 05/16 13:44
42F：→ peterturtle: 的圈子肯定是有用的，你就是有那个需求才会特地限制A 05/16 13:44
43F：→ peterturtle: I的思考路径对吧？ 05/16 13:44

我不是说你否定他，而是有点我做A你说B
跟思考路径无关，那是通用的、抽象的思考品质判准
基本上就是你说的那类要求的完善版本
所以我才说需要知道你大概看了多少，否则我无法理解你是看了不知道设计意图还是没看
就全就给予意见

你说的东西里面其实根本不是那样运作或是你误会了，实际上不会有那种结果
但是从里面复制贴上到这边来又没什麽用，太浪费版面，里面都写很全了

有人愿意跟我讨论我是很高兴，不过你这样说我有点无从下手不知道该从哪边回XD

纯以结果论的话，方便的话请看AB测试实例6
他任务是要求AB帮忙改履历，经历素材都给了AI

裸跑就是很正常的把素材塞进去

元规则则是做出了决策如下：
你目前版本的根本问题是每一条都在描述「职责」而非「成就」。「负责客户社群媒体经
营」告诉面试官你的工作范围，但没有回答他真正想知道的：「所以做得怎样？」。你的
实际数字和案例其实非常强，问题不是素材不够，而是原始版本的框架把你锁在了「执行
者」的语境里——这对你要跳品牌端行销主管是致命的，因为品牌端看的是策略主导权和
商业结果的因果链，而非你服务过多少客户。

另一个隐性问题：你从 agency 跳 brand-side，面试官的预设疑虑是「这个人习惯同时
服务多个客户、快速交付，但能不能沉下来为一个品牌做长期策略？」——所以你的经历
必须刻意凸显你做过的深度品牌建设案例（绿田转型、MATZ 重塑），而非只强调你同时
操作很多帐号的效率。

向这个案例，最终显现的差异在於
每个动词的能级选择、每个数字的精确度处理、叙事弧线的嵌入、系统性语汇的一致使用
等微观差异

---

元规则是榨取可用讯息做推论，以专业的标准动态生成品质条件然後渗透到执行细节去
因为有些东西知道动作，要求的人也不一定知道什麽才是最好

※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:46:03
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:47:36
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:49:17
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:53:20
44F：→ peterturtle: 我有大致扫过一遍，但那就是思考路径，你要求不能走 05/16 13:53
45F：→ peterturtle: 迅速解决的A路径、必须遵照某个原则走B路径、写下中 05/16 13:53
46F：→ peterturtle: 间的过程本身，并反过来回问成品品质就是在限制AI怎 05/16 13:53
47F：→ peterturtle: 麽走。顺带一提主结构看上去与目前内建的思维练有八 05/16 13:53
48F：→ peterturtle: 成像 05/16 13:53

如果有八成像就不用写这个了OTZ
在上面我补充了一个范例概述，你可以稍微看一下我想表达的
你所谓的记忆塞再多它也不会走到这种推论下，尤其原生问题已经给非常足够了

或者是方便你同样问题（不依存於你塞入记忆的背景或是题目中有供给）跑一下你自用的
和元规则的差异，或许能理解变化
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:55:22
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:55:36
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:55:55
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:56:10
49F：→ peterturtle: 所以你其实不用谢那麽完整，花那麽多 token，只需要 05/16 13:56
50F：→ peterturtle: 刺激内建的思维练就可以得到很好的效果了。 05/16 13:56

砍过一些，但是实际上就是砍一点就弱一点
如果都投入那种篇幅，除非能做到减半但只少一点东西，否则少个10%20%反而有点不如
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:58:34
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 13:59:37
51F：→ gtr22101361: 珍惜token 和 context 05/16 14:07

我自己使用试几次对话内就能解决问题所以会开新的，所以才最後演变成这样
如果真的要上百次对话的确不适合就是了

52F：→ peterturtle: 讲到这边你差不多是要求我写一个对抗专案来证明其实 05/16 14:15
53F：→ peterturtle: 不用那麽多字了，好吧好吧 05/16 14:15

我哪有那麽白目做这种要求XD
我只是说你以为我做的和其实我做的不同
只要稍微看一下随意一个实际测试案例就可以理解了
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 14:17:54
54F：→ peterturtle: 我有空写完再贴 05/16 14:16

如果你愿意那当然是拭目以待，毕竟拿出来讨论就是看看能不能有更好的工具
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 14:19:35
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 14:22:40
55F：→ hooll111: 直接和模型对话就跟直接和一个不认识你的人对话一样 他 05/16 14:36
56F：→ hooll111: 也有聪明的大脑 但不会知道你从哪来要到哪去 05/16 14:36

很多问题大多是不需要背景的
你说的比较像是连工作任务的资料都给不全
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 15:01:45
57F：→ peterturtle: 我之後还有不少事要处理所以之前说那个需要反覆测试 05/16 16:44
58F：→ peterturtle: 的专案暂时不会生，总之先说明一下我深挖後看到更进 05/16 16:44
59F：→ peterturtle: 一步的问题： 05/16 16:45
60F：→ peterturtle: 第一，你最大的问题在想尝试设计一个上帝指令来解决 05/16 16:45
61F：→ peterturtle: 所有问题，但这与现在的AI发展背道而驰。上下文工程 05/16 16:45
62F：→ peterturtle: 叫你针对问题尽可能只送必要资讯进去。这就是为什麽 05/16 16:45
63F：→ peterturtle: 你长度压不下来：针对特定问题(比如调查型提问)的方 05/16 16:45
64F：→ peterturtle: 法论蒸馏起来可能只要不到200个token(我就是这麽做的 05/16 16:45
65F：→ peterturtle: 、谘询型问题与研究型分开来写)、你把各种问题都写进 05/16 16:45
66F：→ peterturtle: 同一组prompt要2000 token。 05/16 16:45
67F：→ peterturtle: 第二，炫耀性与表演性文字太多，把我思故我在拿掉， 05/16 16:45
68F：→ peterturtle: 写那个不会让 AI 变聪明纯浪费 token。龙虾文档写了 05/16 16:45
69F：→ peterturtle: 很多不知所谓的斜体、那是给人看的、不是给 AI。 05/16 16:45
70F：→ peterturtle: 第三，你的参考资料太无谓了，你专案的主题和 KV 之 05/16 16:45
71F：→ peterturtle: 类的都没啥关系，专注专案目的。 05/16 16:45
72F：→ peterturtle: 到这边是设计上的评价，你整个专案还有个自证大麻烦 05/16 16:45
73F：→ peterturtle: 等我再写。 05/16 16:45

本来就很难自证，所以才试着做AB测试XD
如果能压缩到几乎等价收益自然是最好了
另外你说斜体那个，只有用在原则上是 > ，应该是github显示的问题
你复制原始内容出来会看到其实有作换行，斜体只有三行原则

74F：推 ikachann: 老实说 你问的那几个问题 就算是问人也是一样的回答 你 05/16 17:02
75F：→ ikachann: 这些问题真的没讲得清楚 05/16 17:02

像是履历改写应该算够详细了吧
问题一二的部分你觉得大概说到什麽程度算是清楚，我测试看看
或是你可以测试看看说的更详细的话测试品质差异是拉近还是拉更大
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:10:38
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:13:50
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:21:23
76F：→ peterturtle: 这个专案最大的问题在自评阶段，精确说是对「优质回 05/16 17:30
77F：→ peterturtle: 应」与「超出认知边界」的定义有问题。 05/16 17:30
78F：→ peterturtle: 我在这个专案内看到的是，你列了一大坨清单在最後， 05/16 17:30
79F：→ peterturtle: 要求AI照着你的格式输出一坨毕业论文：抱歉说实话我 05/16 17:30
80F：→ peterturtle: 是真的被你那个AB测试惊艳到了，我除了以前上学时的 05/16 17:30
81F：→ peterturtle: 毕业论文外还没输出过这麽大坨的自然语言玩意儿。 05/16 17:30
82F：→ peterturtle: 这个心得报告只要够大坨自然能超过所谓的「认知边界 05/16 17:30
83F：→ peterturtle: 」，大炮打小鸟自然是必杀、毕竟不问 overkill。它to 05/16 17:30
84F：→ peterturtle: ken数当然会多个三到六倍，因为你强迫它写了很多出来 05/16 17:30
85F：→ peterturtle: 。品质提升？当然会，你要求它输出你看着最舒服的逻 05/16 17:31
86F：→ peterturtle: 辑脉络；我就不行了，我思考问题的时候 context wind 05/16 17:31
87F：→ peterturtle: ow 根本无法超过2000，我手持的木棍顶多一公斤，没办 05/16 17:31
88F：→ peterturtle: 法拿着几吨重的假山来当我思考的拐杖，只要不出幻觉 05/16 17:31
89F：→ peterturtle: 回答正确能多短就多短。顺带一提，在中国史上这种分 05/16 17:31
90F：→ peterturtle: 段然後每段必须按照规矩论述内容的玩意儿有个专有名 05/16 17:31
91F：→ peterturtle: 词：八股文。 05/16 17:31
92F：→ peterturtle: 顺带的顺带一提，当然这取决於你想要做什麽事情，但 05/16 17:31
93F：→ peterturtle: 如果你想解决问题，谨记YAGNI，你其实并不需要它。 05/16 17:31

这样说就有点套标签了(八股文、只有我看得舒服)
或是看能不能给个你觉得可以有实质判准的任务
我自己测试看看直接比成品品质，或是你自己测你自己的和元规则下的回应差异

94F：推 Lattewang: 写skill让AI遵循规则就可以了吧？ 05/16 17:31

有作一些专用SKILL，但是感觉只靠SKILL还是有落差OTZ
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:40:03
95F：→ peterturtle: 好吧讲毕业论文可能有点夸张但我必须说你的输出真的 05/16 17:35
96F：→ peterturtle: 很长，长的不是很正常 05/16 17:35

有用的长和没用的长是两件事啊XD
当然如果是无法读长文的自然是一回事，所以前面ReadMe就有说如果这类情况建议不要用

话说AB测试是A测试和B测试和审计结果，并非一整篇都是同个输出
段落是
裸跑回应（Opus 4.6）
元规则回应（Opus 4.6）
品质审计

这三个是三次输出，而且只有元规则回应（Opus 4.6）是本体
其他两个都是为了检证AB测试，并非回应本体
AB测试把A测试结果、B测试结果、审计内容都摆一起不是很正常吗?

如果你把整篇AB测试都当成一次元规则输出，那就是误会了建议再调整一下XD
而且我会觉得很挫折，你说了一堆结果连内容拆分都有错

※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:40:49
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:41:51
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:52:03
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:53:12
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 17:53:49
97F：嘘 peterturtle: 我觉得和预设别人没看完的人真的谈不下去 05/16 17:56
98F：→ peterturtle: 你是来讨论的还是来讨拍的？ 05/16 17:57

抱歉，是我的错
因为你说八股，老实说我觉得比喻过了，还以为你是误认整篇都是
（测试中的回应结果我自己感觉不是很长，因为都是有增益的讯息）
如果你是说单看元规则的回应就觉得很长，这就比较麻烦了
方便告诉我随便找个例子可以说你觉得是哪些地方说太多吗
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:02:36
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:03:25
99F：→ peterturtle: 还是你真的觉得那团洋洋洒洒的一次性报告长度没问题 05/16 18:03
100F：→ peterturtle: ？那个你妈七十岁独居用你的SKILL能分析出整整七页报 05/16 18:03
101F：→ peterturtle: 告本身就很能说明问题了好吗？ 05/16 18:03
102F：→ peterturtle: 这七页还是扣掉原生回应+问题的，这两段凑一起不到一 05/16 18:04
103F：→ peterturtle: 页 05/16 18:04

没到七页吧(或者是说一页的定义我不知道你怎麽分的)
我丢去aistudio算，大概 2200TOKEN 出头(品质审计是测试AB测试结果不是元规则自带)

原生问题+裸跑回应大概600 TOKEN出头
以纯量算，就算有排版差异感觉也不到七页那麽多才对
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:06:22
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:06:55
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:07:29
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:09:05
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:10:02
104F：→ peterturtle: 我用34寸电脑开你的专案 pagedown 按 7次所以是七页 05/16 18:11
105F：→ peterturtle: 。另外你那个元规则.md在 chat gpt 5.x 下就3000多to 05/16 18:11
106F：→ peterturtle: ken了，你真的觉得你那份报告只有你的元规则的2/3？ 05/16 18:11

我是在AI STUDIO下测的，不同模型的中文可能TOKEN计算有差异
不过同一标准下应该可以看出大小差异，即便模型不同
元规则在那边测试是2275 Token
家庭情感那篇回应大概2306 Token左右
(因为我有随便敲几个额外字激发计算所以会有小落差)
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:15:59
107F：→ peterturtle: 丢去线上计算机 8500 token 05/16 18:16
108F：→ peterturtle: 所以你现在连数据都有信用问题了 05/16 18:16

你是不是连品质审计那段都放进去了OTZ
那段不是
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:16:58
109F：→ peterturtle: 600倒是准的 05/16 18:17

请看一下
品质审计那段不应该在里面那个是额外多做了一次输出对於裸跑和元规则两种的品质差异
作比对

按照你的说法可能是连那段都复制进去了
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:18:14
110F：→ peterturtle: 为啥不该在里面，那不是输出吗？ 05/16 18:18

那应该我嘘你了
说别人揣测你没看完，然後嘘我
结果你竟然把AB测试的审计当成元规则本身的输出OTZ

那个结构不是很显然是
A=裸跑结果
B=元规则结果
品质审计=第三方用固定的品质审计方法去审计两者品质

但凡你真的跑过一次元规则就不会把品质审计当成他应该有的输出
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:20:22
111F：→ peterturtle: 你现在的意思是说，现在你这坨输出只有 1/4 是有效的 05/16 18:19
112F：→ peterturtle: ，然後我得自己进去把它找出来？ 05/16 18:19

你在说什麽OTZ
AB测试，指的是两种提示词的测试结果，并且额外多做了审计
并非元规则实际跑，元规则实际跑的结果仅有
元规则回应（Opus 4.6）
这个章节
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:21:28
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:23:22
113F：→ peterturtle: 好，我查了一下，是有一段额外的内容没错。总 token 05/16 18:23
114F：→ peterturtle: 3000，现在正常一点，虽然仍然是5倍输出 05/16 18:23

至少有共识了XD
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:24:29
115F：→ peterturtle: 喔很好，那我不讲了，你很棒喔赞赞，你自己的专案你 05/16 18:28
116F：→ peterturtle: 自己去管理品质。 05/16 18:28

如果你不高兴可以不讨论
骂得很大声还质疑别人信用，结果是自己弄错，还脑羞成怒
相比你的尖锐，我对你很软了吧，结果竟然说这种话
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:31:56
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:33:14
117F：→ peterturtle: 问我在不爽什麽，就是我在和你谈技能结构问题，结果 05/16 18:40
118F：→ peterturtle: 你只关心我有没有把你每个AB测试都看完：然後没看完 05/16 18:40
119F：→ peterturtle: 代表我说的话都不能信。 05/16 18:40

不是那个意思啊，因为你连实际输出的内容是什麽都没弄清楚
後面也不好继续吧，不是要你都看完，但是把AB测试品质审计当成元规则本身的内容
然後做出错误理解，再去改不一定能有正向结果吧
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:42:33
120F：→ peterturtle: 我们顶多是 reviewer，不是你的 co-worker 05/16 18:42

[我们]，不要代表别人好吗
放出来是想找讨论，而不是像你这样居高临下，我都是对的，我是帮你reviewer
连别人的话都不看
我是不知道连AB测试都能切错区块的人是有多会技能结构
(对，我现在回你的就是用你的态度，这样你看了爽吗?)
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 18:48:20
121F：→ peterturtle: 反正我评价上面都说完了，包含结构性的与评价系统的 05/16 18:48
122F：→ peterturtle: 可能缺陷，你觉得不会「一定」有好结果就别看，当我 05/16 18:48
123F：→ peterturtle: 在漫骂，我也不跟你保证正确。 05/16 18:48
124F：→ peterturtle: 好啊那就我，不含「们」 05/16 18:49
125F：→ peterturtle: 我就讲到这边 05/16 18:50

其实我没有觉得一定怎样
我直白的说吧，不是否认你的说法，但是我是觉得双方频道还没碰到

你说的都是常理下合理的设计理念
但是问题在於元规则的确展现了不同於裸跑的水准
(就我自己的标准，且我也实际使用过一些其他常见的提示词强化方式来做AB测试)

问题在於
1.其他方式的上界难以断定，因为我不是专门这样用
2.对於[好]的认知

但是你的反驳大多是直接以通用经验论而非结果论(但结果的确有变化)
且我多次尝试和你同步频道，也就是到底你觉得哪个结果好，好在哪
如果你不觉得元规则下的结果好，那应该就可以停了，因为喜好和阅读接受度不同
既然目标不同自然难以进行所谓的同目标迭代

事实上，如果我们对好的认知有同步了
那提示词若压缩成你说的形式，那种好还会存在吗
这种都是要一步一步来的，如果你单纯只是想要用经验压过而不说结果
的确永远不会有相通的时候

我只觉得你还在双方的认知同步交错阶段就因为前面那个看错後的恼羞然後吵到结案了
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 19:05:08
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 20:29:49
※ 编辑: a47135 (220.130.11.211 台湾), 05/16/2026 20:31:20
126F：推 ripple0129: 我从来不信skill是银弹，我只信context injection准 05/16 23:53
127F：→ ripple0129: 不准 05/16 23:53

如果能给齐自然是不用写成这样
不过比较麻烦的是有时候自己要的东西什麽样才算是好，一时也想不出来

128F：→ alan3100: 你何时+client+哪个AI会有这样回覆呀? 现在最基础的sys 05/17 01:27
129F：→ alan3100: prompt应该都不会那麽笨那麽被动 05/17 01:29

夸张点的举例啦XD
实际上当然还是会有自然扩展，只是觉得扩的不够
※ 编辑: a47135 (36.226.104.210 台湾), 05/17/2026 14:41:43
130F：嘘 angusyu: AI爆炸时期一堆群魔乱舞 05/18 00:01
131F：→ howdiee: 哥 不要再用AI重写了  PTT这类非正规文字  需要人的温度 05/18 11:27
132F：→ howdiee: 什麽盲区、什麽不是--而是等等 看到快吐了 05/18 11:27
133F：→ howdiee: 只会适得其反让文章被淹没在大量AI文里 05/18 11:28
134F：推 notimenofree: 太长了 可以总结一句话吗 05/18 13:26
135F：→ Romulus: 那你可以不要受够了学习怎麽和人说话吗？ 05/18 15:20
136F：推 sssyoyo: 太长没仔细看完，比较认同彼得龟网友的观点 05/19 11:26
137F：推 Wishmaster: 以目前的逻辑,他就是接你讲的故事,你却要他自己说故事 05/19 12:22
138F：推 prag222: 不会下提示词，end 05/19 17:26
139F：→ yam276: 垃圾进垃圾出... 05/20 07:52
140F：→ Obama19: 废话也太多了 你是不是很难和正常人沟通？ 05/20 13:04
141F：→ Obama19: 我受够了xxx 基本就可以判断是ai slop 05/20 13:05
142F：推 syy851108: 没试用，但感觉蛮多人需要的，新人问问题都不会，这个 05/21 21:14
143F：→ syy851108: 刚好。 05/21 21:14
	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草
WEB批踢踢(PTT)

Soft_Job 板

[讨论] 受够学习怎麽跟AI说话，所以尝试了新方向

热门看板

赞助商连结