作者s3714443 (metalheads)
看板DataScience
标题[问题] 中文 词向量 相似度
时间Sat Aug 8 00:19:09 2020
各位板友好
小弟目前有一些客户的浏览行为标签,例如:
'轻食' '农业' '退休' '连锁咖啡'
'连锁速食餐厅' '游戏' '游乐园' '游轮'
这种标签,虽然已经是比较粗略的分类了,但整体还是有好几百个
如果要人工手动去归类成大类会非常费工
所以我想要用词向量的方式进行集群,把相似的归类在一起
不知道有什麽预训练好的model可以算大量字词的相似度
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 150.116.180.58 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1596817153.A.FE0.html
※ 编辑: s3714443 (150.116.180.58 台湾), 08/08/2020 00:20:07
1F:推 st1009: 中文Bert? 08/08 07:47
2F:推 min86615: 其实可以认真算算标记这个到底需要多久,有时候可能真的 08/08 08:17
3F:→ min86615: 找不到符合你需求的支援还是得使用工人智慧QQ 08/08 08:17
4F:→ min86615: 而且几百个把分类定义清楚,先把明显的大类分出来,再细 08/08 08:20
5F:→ min86615: 划分小类感觉一个礼拜也够,不要怕很花时间有时候时间算 08/08 08:20
6F:→ min86615: 出来的比你想像的少,加油 08/08 08:20
7F:→ min86615: 之後只用一般的算法去做分类就可以,但如果你是因为上级 08/08 08:21
8F:→ min86615: 需求要用到NLP我就没办法了 08/08 08:21
9F:→ allen1985: 自己train一个word2vec model? 08/08 10:06
10F:推 jigfopsda: Fasttext 有中文 pretrained,可以自己抓下来算距离 08/08 12:46
11F:推 ruokcnn: 直接word2vec不就好了?? 08/08 17:02
12F:推 gulaer: 用word2vec或BERT拿到embedding 再算cos similarity 就好 08/15 14:53
13F:→ gulaer: 啦 08/15 14:53
14F:推 luli0034: BERT直接算cosine similarity你会fail 09/04 12:47
15F:→ luli0034: The construction of BERT makes it unsuitable for sem 09/04 12:47
16F:→ luli0034: antic similarity search as well as for unsupervised 09/04 12:47
17F:→ luli0034: tasks like clustering. 09/04 12:47
18F:推 luli0034: 不过我不太清楚中文有什麽开源的任务来fine tune..XD 09/04 12:49
19F:→ luli0034: 英文的话SBERT是利用NLI与Siamese network来让bert的vec 09/04 12:50
20F:→ luli0034: tor representation可以直接用cosine similarity来衡量 09/04 12:50
21F:→ luli0034: 语意相似~ 09/04 12:50
22F:推 luli0034: 我一开始也期待BERT能够捕捉到”语意” 但是实验看来他 09/04 12:53
23F:→ luli0034: 的output并不是一个vector space的representation~ 09/04 12:53
24F:推 yolanda1203: fasttext跟wiki都有pre-trained好的东西 10/16 21:58