作者moodoa3583 (金牌台湾啤酒)
看板Python
标题[问题] Unsupervised Clustering 问题求解
时间Tue Oct 13 23:22:09 2020
嗨大家好
我现在有约莫 2000 个 entity,每个 entity 都有自己的 features,例如:
”LeBron”:[”NBA” ,”篮球”,”美国人”]
”电风扇”:[”家电”,”机械”]
...之类
而我的目的是要让 entity 分群,例如 LeBron 就会跟 Westbrook 分成一堆,电风扇就会跟吹风机分成一堆。
目前有两个卡住的点
1.每个 entity 所带的 features 长度不同,可能有些有 5,6 个 features 有些只有一个,这样子是否有方法可以喂给模型?
2.每个 entity 的 features 不尽相同,即使他们表示同一事物,例如 A 球员被标 NBA , B 球员被标 国家篮球协会,我得怎麽让模型知道 NBA = 国家篮球协会 这件事?
以上两点,还请不吝告知关键字,让我有个查询方向,谢谢各位。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.150.206 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1602602531.A.17D.html
1F:→ mirror0227: 李宏毅 10/14 00:29
2F:→ mirror0227: 好啦认真回,自然语言处理 NLP 10/14 00:30
3F:→ moodoa3583: 感谢回应,NLP 算是我比较陌生的领域,想问有没有处理 10/14 00:46
4F:→ moodoa3583: 类似问题的 repo 可以推荐给我呢?谢谢 10/14 00:46
5F:推 mychiux413: NBA 篮球 还不是feature,你要先把他们train成embedd 10/14 11:57
6F:→ mychiux413: ing向量,这样每个词都会是一个可能512的向量,那fea 10/14 11:57
7F:→ mychiux413: ture尺寸就都一样了 10/14 11:57
8F:→ mychiux413: 关键字:embedding 10/14 11:58
9F:→ tsoahans: 非NN做法:bag of words+LSA/LDA来抽entity的特徵再分群 10/14 14:02