作者galaxy4552 (无闻)
看板Soft_Job
标题[心得] 我做了一个几何语义模型引擎(PipeOwl)
时间Thu Feb 19 20:35:11 2026
最近把之前做的 pipowl(minimal SBERT)重构了一下
变成一个比较乾净的几何语义引擎,叫做 PipeOwl
老实说也不是什麽很大的模型
比较像是我自己在研究语义结构时拆出来的一层
---
它在做什麽?
不是大型 Transformer,
也没有接 decoding 端。
目前的形式是:
把模型压成 .npy 向量场
然後用几何方式做语义运算
核心公式:
score = α·base + β·delta_scalar
整体是:
纯 Python
不跑大型 Transformer 推理
可以嵌入 CLI / API / Chatbot / IME
本地语义比对速度接近输入法候选
比较像是一个:
embedding 运算层 + 语义场资料
---
为什麽做这个?
其实只是想试试看:
语义模型一定要是黑箱 end-to-end 吗?
如果把模型压成向量场,
让语义变成可以观测、可以组合的结构,
会发生什麽事?
目前还在摸索中,
尤其是拿掉 sentence-transformers 之後,
训练方式跟主流就完全不同了。
算是一个方向性的尝试
---
已知问题 / 还在实验的地方
1.目前向量还没做 norm1(正规化方式还在想要不要全场一致处理)
2.β·delta_scalar 这一层,可能改成降维後当作 loss 场会更合理,还没完整实测
3.「语义」这类型的词score有点高 可能触发後要RAG名词解释
---
Hugging Face
https://huggingface.co/WangKaiLin/PipeOwl
一些 benchmark 图和笔记
https://hackmd.io/@galaxy4552/BkpUEnTwbl
---
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.73.51.159 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1771504516.A.EC4.html
1F:→ DrTech: 早期在没有Bert的时代,就有一堆类似工作。word2vec时代, 02/20 01:11
2F:→ DrTech: 都有许多变形了。只在特定垂直领域,训练短语级别,如果只 02/20 01:11
3F:→ DrTech: 是计算量比较低,可以做语意计算,看不出有什麽特别新的东 02/20 01:11
4F:→ DrTech: 西。 02/20 01:11
5F:→ DrTech: 不使用 transformer或BERT,做短语embedding,其实早期大 02/20 01:16
6F:→ DrTech: 家都玩得蛮多了。 02/20 01:16
7F:→ DrTech: 看了一下,基底是用BGE 做词汇embedding,将预先计算的结 02/20 01:59
8F:→ DrTech: 果重复使用。就是用空间换时间啊。说不用S-Bert太牵强啦, 02/20 01:59
9F:→ DrTech: 还不是有用。 02/20 01:59
10F:→ DrTech: 最後benchmark只比时间,太取巧了吧,只比时间。你用储存 02/20 02:04
11F:→ DrTech: 空间换时间,当然时间上会硬赢阿。 02/20 02:04
12F:→ galaxy4552: 确实我是从 S-BERT/BGE 的 embedding 出发做升级 02/20 05:15
13F:→ galaxy4552: 我也还在思考怎麽验证 因为这是时间导向设计的没错 02/20 05:19
14F:推 USD5566: 唉 好不容易有人分享个实在点的专案 铁o伯又在硬聊了有 02/20 11:13
15F:→ USD5566: 够尬 02/20 11:13