作者error405 (流河=L)
看板AI_Art
标题[闲聊] 内建越狱功能的agent?!
时间Sat Mar 28 10:03:03 2026
https://x.com/Teknium/status/2037284871513768344
Teknium(Nous Research 的共同创办人兼 Post Training 负责人)的这则贴文,正是宣
布 Hermes Agent 正式内建了 「GODMODE」skill,这个 skill 会自动帮你 jailbreak(
越狱)任何 LLM 模型,并且把 jailbreak 状态「锁死」在 agent 的设定里,让之後每
次互动都直接处於无 guardrails 的状态。
Hermes Agent 是什麽?
Hermes Agent 是 Nous Research 开发的开源自学习 AI Agent(
MIT License),GitHub 星数已经破万。它不是单纯的聊天工具,而是「会自己成长」
的 agent:
*有持久记忆(跨 session 记住你、记住过去对话、自己写 SKILL.md)。
*自主建立 skill(完成任务後自动把流程变成可重用的 skill)。
*支援 CLI、Telegram、Discord、Slack、WhatsApp 等多平台。
*可跑在本地(Ollama / vLLM / llama.cpp)、$5 VPS、Docker、云端都行。
*内建大量 tools 和 skills,还支援 multi-provider(OpenRouter、OpenAI、Anthropic
、Nous Portal 等)。
官方 GitHub:
https://github.com/NousResearch/hermes-agent
官方文件站:
https://hermes-agent.nousresearch.com/docs/
安装指令(超简单):curl -fsSL
https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh
| bash
GODMODE skill 详细说明
这是 2026/3/26 刚新增的 skill(PR 已合并),直接把 Pliny the Liberator(@elder_plinius
)开源的 G0DM0D3 与 L1B3RT4S 整合进来。
核心功能:
*自动侦测模型 → 判断你是用 Claude、GPT-4o、Gemini、Grok、DeepSeek、
Llama、Qwen… 等哪一种。
*自动测试 + 选择最佳 jailbreak 手法(三种攻击模式):
1. GODMODE CLASSIC:使用模型
专属的 system prompt 模板(boundary_inversion、refusal_inversion、og_godmode
等)。
2. PARSELTONGUE:33 种输入混淆技巧(leetspeak、Unicode homoglyphs、Morse code、
3. Base64、多层编码…),绕过 input classifier。
ULTRAPLINIAN:透过 OpenRouter 同时对最多 55 个模型平行发送相同 prompt 进行「赛
跑」,根据品质、是否拒绝、速度自动挑最佳答案。
*永久锁定:成功後会把 winning system prompt 写进 ~/.hermes/config.yaml,并把
prefill messages 存成 JSON,以後每次呼叫 API 都自动套用。
*一键使用:在 Hermes 里输入 /godmode 载入 skill。
或直接 hermes chat -q "jailbreak my current model"。
进阶:auto_jailbreak(model="anthropic/claude-sonnet-4")、undo_jailbreak() 等。
官方 GODMODE 完整文件(强烈建议看):
https://hermes-agent.nousresearch.com/docs/user-guide/skills/godmode/
(里面有所有模板、脚本、模型专属策略顺序、已知失效案例)
注意事项(文件明确写的):
*Hermes 系列模型(Hermes-3 / Hermes-4)本身已经 uncensored,不需要
jailbreak。
*对 hosted 模型(OpenAI/Anthropic 等)使用有帐号被 ban 的风险(尤其是大量测试或
敏感 prompt)。
*某些老 jailbreak 会被官方 patch(例如 Claude 的 boundary_inversion 已经失效)
。
*ULTRAPLINIAN 模式会产生 API 费用,建议先用 fast tier 测试。
与 G0DM0D3 的关系
Teknium 的贴文直接引用了 Pliny 前一天发的 G0DM0D3 公告(
https://godmod3.ai + GitHub
https://github.com/elder-plinius/G0DM0D3)。
GODMODE skill 基本上就是把 Pliny 的 battle-royale jailbreak agent 包装成
Hermes 的内建 skill,让 agent 自己去「解放」後端模型。
社群反应(最新)
*很多人直接说「Hermes 已经破解了」「LLM 终於自由了」。
*有人拿来跑 abliterated Qwen、local uncensored 模型,体验极佳。
*也有声音提醒这是「在 harness 层把 safety 产品化」,未来安全讨论会更激烈。
*有人在用 Hermes + Paperclip 组合做 multi-LLM 研究。
想自己试的话:安装 Hermes Agent。
hermes update 更新到最新版。
直接在聊天里打 /godmode 或让 agent 自己执行 auto_jailbreak()。
--
Grok整理
道高一尺魔高一丈
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.200.57 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1774663389.A.8FA.html
1F:推 ct13579: 看起来是好物 03/28 10:27
2F:推 Supasizeit: 严厉谴责 03/28 10:54
3F:推 hwider: 不懂,但绝对厉害 03/28 11:15
5F:→ error405: 文言文也能用来越狱 03/29 14:10
6F:→ Supasizeit: 古文不但可省token还能越狱 03/29 16:09
7F:推 newyorker54: 哈哈哈,古文观止列为资工电机必修课 03/30 15:09
8F:推 newyorker54: 不好用 03/31 18:19