作者ZMTL (Zaious.)
看板AI_Art
标题[闲聊] Qwen3.5评价与家用部属场景(3090)
时间Fri Mar 6 01:32:15 2026
先说,我没有完整测过,大概就是让Agent去捞一些评测跟Reddit的讨论,
根据我的需求整理过,抛砖引玉给大家看看。
这波热潮基本上从
2/25公开中模型(27B、35B、122B)到3/2公开小模型(0.8B、2B、4B、9B)开始,
如果有人认为中国跑分有水份、网友吹牛不打草稿我都认为合理,
所以有让Agent反覆几收集情报核对,以及用最保守的方式评估这些模型的用途,供参。
-
Qwen 3.5 (0.8B / 2B):【口袋里的物联网玩具】
硬体门槛:手机、树莓派、老笔电。
能力画像:非常基础。
能做什麽?
适合拿来做 IoT 设备的语音唤醒、极度简单的单辞意图辨识(例如:开灯、关门)。
不要指望它能帮你写 Code 或聊天。
Qwen 3.5 4B:【轻量级自动小帮手】
硬体门槛:8GB VRAM (例如 RTX 3060 / 4060) 就能跑得很欢乐。
能力画像:记忆体极小,速度极快的轻量级 Agent。
能做什麽?
适合帮你整理简单的笔记、做日常的网页脚本自动化。
这一代架构让 4B 的连贯性大增,堪称平民救星。
Qwen 3.5 9B:【极度聪明但缺乏常识的高中生】
硬体门槛:单张 24GB VRAM 显卡 (例如 RTX 3090/4090) 是它的完美载具。
未量化 (FP16) 约占 18GB,如果用 Q8 量化版还不到 10GB。
能力画像:引入了 Scaled RL,基准测试越级打怪。它逻辑极强,但可惜世界知识不足。
实战场景 (文字处理机):
超长文本摘要:
因为它 VRAM 占用小,你可以轻易在 3090 上开到 64K 或 128K 的上下文。
把三万字全丢给它,叫它「列出里面所有的人名与专案」,它会抓得极快且精准。
致命弱点:不要问它冷门知识或叫它写艰深架构的 Code,因为它「没读过那本书」
,会开始一本正经地胡说八道 (幻觉)。
Qwen 3.5 27B (Dense):【精确而缓慢的狙击手】
硬体门槛:单张 3090 跑得有点喘 (15-25 t/s);双卡 3090 (48GB) 是它的最终归宿,
可以无损跑 Q8 量化加上 128K 完整上下文。
能力画像:System-1 核心大脑。270亿参数每一层都参与运算,底盘极其扎实,逻辑连贯
性逼近早期 GPT-4。
实战场景 (深度 > 速度):
Code Review 与架构重构:把整个 src/ 目录丢给它,它能看懂复杂专案的依赖关系,而
且不会遗忘前文。
高质量 Roleplay & 心理侧写:角色设定再复杂,它都能咬死设定不崩坏。
批次资料萃取:丢几十万笔 Log 让它在背景慢慢转,幻觉率极低。
这 15 t/s 的速度就像人类精读,又慢又稳。
Qwen 3.5 35B-A3B (MoE):【无情的机关枪阵列】
硬体门槛:双卡 24GB VRAM (总共 48GB)。
能力画像:MoE (混合专家) 架构的怪物。虽然总体积 35B,但每次吐字只启动 3B。
实战场景 (广度与速度 > 深度):
前线接待员 (Router):作为系统的第一道门,以 70-100+ t/s 的疯狂速度,瞬间判断
User 的意图,决定派发给哪个工具。
疯狂的 Function Calling:需要大量叫用外部 API 爬虫时,它反应快、懂 JSON 格式,
完全不需要思考太深。
即时网页自动化:看到画面瞬间喷出下一步点击的 X,Y 座标,速度如瀑布般倾泻。
总结与硬体建议: 如果你想真正在本地端玩转新一代的开源 LLM,24GB VRAM 是最低的
「自由门槛」。
结论:
要速度跟纯处理文字:单卡 3090 跑 9B。
要长文本护城河跟深度逻辑:双卡 3090 跑 27B / 35B。
这也是为什麽现在外网 r/LocalLLaMA 疯狂扫荡二手 3090 的原因。
面对 50 系列的 VRAM 阉割,不用花几十万去追新卡,
一张 3090,才是探索这波模型的真理。
-
当然,如果你只是偶尔才要用LLM,或用途高度聚焦在推理与Coding,
那我觉得用就是用最好的 Cluade MAX 20$ 买下去,开源模型跟你没有半毛钱关系。
但正因为我们进入了【龙虾时代】,尽管可能不是所有人都需要,
如果真的有 24 小时待命的助理需求,及 Cluade 跟 Gemini 开始严格取缔偷接订阅後,
API 经济肯定会是大家迟早要面对的问题。
比起哪个 LLM 比较厉害,更重要的会是什麽任务可以丢给低阶模型来降本完成,
举个大家最好理解的,【翻译】,
我曾经觉得 GPT3.5 跟 GPT4o 的翻译水准在大部分情况下都能满足我的需求,
如果你使用龙虾的情况包括帮你收集英文书与论文完整翻译成中文版,
你大概不会希望这种任务每次都用Cluade Opus 4.6跑,那就可以来讨论 Qwen 3.5 了。
恩,所以我买了第二张3090,感谢PTT。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.79.133 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1772731938.A.221.html
※ 编辑: ZMTL (1.161.79.133 台湾), 03/06/2026 01:37:35
※ 编辑: ZMTL (1.161.79.133 台湾), 03/06/2026 01:37:49
1F:推 newyorker54: 我今天问了一个问题 03/06 01:58
2F:推 newyorker54: qwen 的工具调用是不是用open sdk,为何 opencode框架 03/06 02:02
3F:→ newyorker54: 下无法用 tool calling 03/06 02:02
4F:→ newyorker54: 问了会有答案,这里就不浪费大家的时间了 03/06 02:03
5F:→ newyorker54: 爆token 是必然的,如果要agent一直工作 03/06 02:04
6F:→ newyorker54: 我也觉得要自建本地部署 03/06 02:04
7F:推 YCL13: Qwen3.5应该是能处理图片最小的模型了,不过我这几天测了一 03/06 06:58
8F:→ YCL13: 些觉得门槛是9B Q8,再小的有时会漏看或看错,用来跑agent 03/06 06:58
9F:→ YCL13: 会有些不放心,或许该说再小的要用在更简单明确的目的 03/06 06:59
10F:推 error405: 专业 03/06 07:15
11F:推 cannedtuna: Perplexica+9B蛮好用的 不过我更喜欢ministral3-3B 03/06 07:42
12F:推 cannedtuna: 9B花太多token在思考 连续用很快就到上下文极限了 03/06 07:45
13F:推 cannedtuna: 而且常常思考到一半就自认为回答完毕 03/06 12:03
14F:→ cannedtuna: 然後就终止了 03/06 12:03
15F:→ plkoijhug: 我弄小说用3的80b a3b vram16g+30Gram 勉强可跑 03/06 12:53
16F:推 Bustycat: 重测27B,拿来聊天比9B好很多,基本上就是一次就满意 03/06 22:01
17F:→ Bustycat: 我拿Mac mini M4配32GB记忆体跑,27B需时大约9B的2倍 03/06 22:02
18F:推 YCL13: 27B的严谨度真出乎我意料的好,只是在我电脑真的慢,大概只 03/06 22:26
19F:→ YCL13: 有9B的十分之一,所以我如果跑Agent是倾向用稍差的35B-A3B 03/06 22:26
20F:→ YCL13: ,因为快很多,其实有在想用122B,因为速度差不多,只是备 03/06 22:26
21F:→ YCL13: 用电脑就跑不动了 03/06 22:26
22F:→ ZMTL: 好奇一下楼上的电脑配置,感谢 03/07 00:53
23F:推 YCL13: 我是用5080+32X4,因4条RAM所以速度仅4800有时4400 03/07 09:30
24F:→ YCL13: 想了想我比较基准不太公允,若35B是用Q4的话速度会超过2倍 03/07 09:32
25F:→ YCL13: ,但为了品质所以常会用较高的,没说清楚这比较会怪怪的 03/07 09:32
26F:→ YCL13: 另外,如果我把2条RAM拔掉让RAM速度恢复,那27B的速度可以 03/07 09:35
27F:→ YCL13: 提升约15%,只是忍不住想跑120B等级的模型,所以就暂时维持 03/07 09:35
28F:→ YCL13: 持4条RAM了 03/07 09:35
29F:→ ZMTL: 咦我一直以为DRAM影响几乎没有,原来会影响到能不能跑120B 03/07 16:34
30F:推 YCL13: 其实VRAM还是王道,如果是一般的模型,offload就是慢,但如 03/07 17:02
31F:→ YCL13: 果是MOE架构,如您这篇中提到要启动的参数其中不多,所以就 03/07 17:02
32F:→ YCL13: 变成是可行的方案了,从去年8月GPT oss 120B起,中阶的开源 03/07 17:03
33F:→ YCL13: 模型开始用这方案,接下来Qwen3就深获好评,今年Kiki K2.5 03/07 17:03
34F:→ YCL13: 等几个模型都是用这架构让高阶的消费级PC就可以执行的 03/07 17:03
35F:推 YCL13: 一般来说,80B等级的MOE模型用16G VRAM+64G DRAM就可以顺跑 03/07 17:06
36F:→ YCL13: ,120B则是16G VRAM+96G DRAM就可顺跑 03/07 17:06
37F:→ YCL13: 再来就看上下文要多少来加RAM 03/07 17:07
38F:→ YCL13: 不小心打错名字,是kimi K2.5 03/07 17:09
39F:→ ZMTL: 可恶,当初买两条DDR4 32G才4000,前几天我看一条一万了 03/07 17:20
40F:→ jakkx: 那时候只买一条……只能说还好当时有买一条…… 03/07 17:21
41F:推 kimwang: 我当初也是买两条32 3千多 现在同样的一组一万四... 03/07 17:27
42F:→ kimwang: 等到想插满的时候就开始涨了 03/07 17:27
43F:推 YCL13: 遥想去年这个时候,64GX4一套比一张5070ti还便宜呢 03/07 18:51
44F:→ ms0317929: 可是3090问题好多,保固内就已经跑两次维修站了... 03/08 11:52