作者s3714443 (metalheads)
看板DataScience
標題[問題] 中文 詞向量 相似度
時間Sat Aug 8 00:19:09 2020
各位板友好
小弟目前有一些客戶的瀏覽行為標籤,例如:
'輕食' '農業' '退休' '連鎖咖啡'
'連鎖速食餐廳' '遊戲' '遊樂園' '遊輪'
這種標籤,雖然已經是比較粗略的分類了,但整體還是有好幾百個
如果要人工手動去歸類成大類會非常費工
所以我想要用詞向量的方式進行集群,把相似的歸類在一起
不知道有什麼預訓練好的model可以算大量字詞的相似度
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.180.58 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1596817153.A.FE0.html
※ 編輯: s3714443 (150.116.180.58 臺灣), 08/08/2020 00:20:07
1F:推 st1009: 中文Bert? 08/08 07:47
2F:推 min86615: 其實可以認真算算標記這個到底需要多久,有時候可能真的 08/08 08:17
3F:→ min86615: 找不到符合你需求的支援還是得使用工人智慧QQ 08/08 08:17
4F:→ min86615: 而且幾百個把分類定義清楚,先把明顯的大類分出來,再細 08/08 08:20
5F:→ min86615: 劃分小類感覺一個禮拜也夠,不要怕很花時間有時候時間算 08/08 08:20
6F:→ min86615: 出來的比你想像的少,加油 08/08 08:20
7F:→ min86615: 之後只用一般的算法去做分類就可以,但如果你是因為上級 08/08 08:21
8F:→ min86615: 需求要用到NLP我就沒辦法了 08/08 08:21
9F:→ allen1985: 自己train一個word2vec model? 08/08 10:06
10F:推 jigfopsda: Fasttext 有中文 pretrained,可以自己抓下來算距離 08/08 12:46
11F:推 ruokcnn: 直接word2vec不就好了?? 08/08 17:02
12F:推 gulaer: 用word2vec或BERT拿到embedding 再算cos similarity 就好 08/15 14:53
13F:→ gulaer: 啦 08/15 14:53
14F:推 luli0034: BERT直接算cosine similarity你會fail 09/04 12:47
15F:→ luli0034: The construction of BERT makes it unsuitable for sem 09/04 12:47
16F:→ luli0034: antic similarity search as well as for unsupervised 09/04 12:47
17F:→ luli0034: tasks like clustering. 09/04 12:47
18F:推 luli0034: 不過我不太清楚中文有什麼開源的任務來fine tune..XD 09/04 12:49
19F:→ luli0034: 英文的話SBERT是利用NLI與Siamese network來讓bert的vec 09/04 12:50
20F:→ luli0034: tor representation可以直接用cosine similarity來衡量 09/04 12:50
21F:→ luli0034: 語意相似~ 09/04 12:50
22F:推 luli0034: 我一開始也期待BERT能夠捕捉到”語意” 但是實驗看來他 09/04 12:53
23F:→ luli0034: 的output並不是一個vector space的representation~ 09/04 12:53
24F:推 yolanda1203: fasttext跟wiki都有pre-trained好的東西 10/16 21:58