作者moodoa3583 (金牌台湾啤酒)
看板Python
标题[问题] 使用python 做类别归档
时间Wed Apr 1 00:57:10 2020
嗨大家晚安
感谢上次大家帮我解决球员伤病关键字提取的问题,今天又有新的问题要来麻烦各位了。
问题是这样的,我有约莫一万个与篮球有关的词汇,而我想将它们一一分类,像是:
NBA>组织
FREAK 1>球鞋
Karl Malone >球员
走步>规则
像是以上这样子,我创了10个类别包括组织、球鞋、球员、伤病、品牌、服饰、奖项、个人数据、规则、其他
想问有什麽方法可以将这一万个词汇分类到属於它们的类别呢?
我上网查了一阵只查到doccono这个方便标记的介面,好像比较少看到如何去训练这种取向的模型
再麻烦各位如果知道的话还请和我说该查什麽关键字了,感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.137.35.153 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1585673832.A.93F.html
1F:→ MacBook5566: entity typing/linking 04/01 01:11
我查了一下发现有点类似,但不可避免还是需要上下文,虽然合理不过我手边这些entity没有上下文
2F:推 ddavid: 关键在你毕竟还是需要不少已经分类好的词做training,而且 04/01 10:46
3F:→ ddavid: 直觉来看这个分类器可能正确率不会太高 04/01 10:47
4F:→ ddavid: 词分类的线索不多,这些类别又不少容易混淆 04/01 10:50
5F:推 ddavid: 看到Nike到底是组织、品牌或服饰呢? 04/01 10:52
6F:推 ddavid: 其中有一些引入前後文或人类知识会有帮助,比如里面有动词 04/01 10:56
的确,没有上下文会是一个蛮困扰的状况。不过现阶段只是想做个粗浅的分类,因此把Nike分到品牌或组织都是可接受,但不会分到服饰或球鞋,除非这个字是「Nike风衣」,「Nike airmax 90」这种有特定形象的才会分到服饰或球鞋
7F:→ ddavid: 那高机率属於规则类、NBA球员列表资料库直接比对等等 04/01 10:57
※ 编辑: moodoa3583 (114.137.35.153 台湾), 04/01/2020 11:13:11
※ 编辑: moodoa3583 (114.137.35.153 台湾), 04/01/2020 11:24:48
8F:推 TuCH: 可以收集很多文章 做 word2vec 04/01 11:25