作者error405 (流河=L)
看板AI_Art
标题[闲聊] AI焊死在晶片上 每秒产一万字
时间Sat Feb 21 10:14:30 2026
https://taalas.com/the-path-to-ubiquitous-ai/
核心技术:Hardcore Models(硬核模型)
把整个 AI 模型(权重、参数)直接「硬焊(hard-wire)」到矽晶片上,变成 专属 ASIC(应用特定积体电路)
从拿到一个新模型开始,只要 2 个月 就能做出对应的客制晶片
他们称之为 「The model is the computer」 —— 模型本身就是电脑,不再需要通用
GPU 去跑软体
解决的问题
现在 AI 推论(inference)太慢、太贵、太耗电 → 阻碍 AI 真正无所不在(ubiquitous AI)
Taalas 想做到像当年 ENIAC → 现代电脑的转变一样,让 AI 变得即时、低成本、低功
耗
第一代产品:HC1
硬焊的是 Llama 3.1 8B(使用他们自订的 3-bit 基底量化,部分参数 6-bit)
效能宣称:单用户:17,000 tokens/sec(约 10 倍於目前 SOTA,如 Groq、Cerebras、
NVIDIA H200 等)
建置成本:20 倍便宜
功耗:10 倍低
缺点:品质比原版 GPU 跑的略有下降(因为激进量化),上下文长度目前有限(但他们
说可弹性调整)
体验方式:免费聊天 Demo:
https://chatjimmy.ai (很多人说打完 Enter 几乎瞬间出
答案,感觉像本地跑)
也有 Inference API 可申请
下一代与路线图
HC2:更高密度、更快,采用标准 4-bit 浮点 格式
今年春天:中型 reasoning LLM 上 HC1
今年冬天:frontier-level(前沿级)LLM 上 HC2
长期愿景:sub-millisecond 延迟、近乎零成本的即时 AI
跟传统「AI 压缩」的差别传统压缩:量化(8→4→2 bit)、剪枝、蒸馏、MoE 等 → 还
是在 GPU/通用硬体上跑
Taalas:直接把压缩後的模型「印到」晶片里 + 储存与运算合一(DRAM 等级密度,没
有 HBM、没有先进封装、没有液冷需求),彻底消除记忆体墙
简单说:它不是在压缩模型档案大小,而是在压缩「执行 AI 所需的整体成本与延迟」到
极致,代价是这个晶片只能跑特定一个模型(极端特化)。目前社群反应(Hacker News
、Reddit、X)很热烈,有人觉得是疯狂的突破,也有人质疑品质下降、模型更新太快是
否实用、是否只适合特定低延迟场景。
--
去它的测试网页用英文叫它写篇小故事 啪一下全丢上来 耗时0.036秒
这种技术以後如果能跟机器人结合应该大有可为吧我想
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.247.149 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1771640074.A.0AD.html
1F:推 Tosca: 出一台便宜的专生色色图就太棒了~~ 02/21 10:37
2F:→ ninggo: 速度真变态 02/21 10:50
3F:推 gino0717: 人类的性慾跟不上怎麽办 02/21 12:01
4F:推 avans: 8B是小资料量,再加上特规3-bit量化,能力十分有限度 02/21 15:27
5F:→ avans: 不过将软体模型转为硬体晶片,感觉不简单也很有趣 02/21 15:27
6F:→ error405: 明年能变成搞多大的还不知道 02/21 15:33
7F:推 v86861062: 酷 02/21 15:37
8F:推 qiaffvvf: 好猛喔这个 02/21 16:49
9F:推 stlinman: 生图模型要刻成晶片应该不难? 图像模型小的就很好用了! 02/21 21:46
10F:推 necrophagist: 好屌 02/21 22:54
11F:推 Destiny6: 拿来刻TTS应该很适合? 02/21 23:17
12F:推 rex7788: 希望能像手机这样可以小型、介面好又耗时低的 02/22 01:08
13F:→ rex7788: 翻译也能小型化变成即时的就好了 02/22 01:08
14F:推 WalkingIce: 想到 Java Processor 的概念,把 JVM 做成硬体 02/22 15:25
15F:推 dragon6: 以後电脑或机器人装置上会不会出现可更换的AI卡 02/24 16:15