作者moodoa3583 (金牌台灣啤酒)
看板Python
標題[問題] 使用python 做類別歸檔
時間Wed Apr 1 00:57:10 2020
嗨大家晚安
感謝上次大家幫我解決球員傷病關鍵字提取的問題,今天又有新的問題要來麻煩各位了。
問題是這樣的,我有約莫一萬個與籃球有關的詞彙,而我想將它們一一分類,像是:
NBA>組織
FREAK 1>球鞋
Karl Malone >球員
走步>規則
像是以上這樣子,我創了10個類別包括組織、球鞋、球員、傷病、品牌、服飾、獎項、個人數據、規則、其他
想問有什麼方法可以將這一萬個詞彙分類到屬於它們的類別呢?
我上網查了一陣只查到doccono這個方便標記的介面,好像比較少看到如何去訓練這種取向的模型
再麻煩各位如果知道的話還請和我說該查什麼關鍵字了,感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.35.153 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1585673832.A.93F.html
1F:→ MacBook5566: entity typing/linking 04/01 01:11
我查了一下發現有點類似,但不可避免還是需要上下文,雖然合理不過我手邊這些entity沒有上下文
2F:推 ddavid: 關鍵在你畢竟還是需要不少已經分類好的詞做training,而且 04/01 10:46
3F:→ ddavid: 直覺來看這個分類器可能正確率不會太高 04/01 10:47
4F:→ ddavid: 詞分類的線索不多,這些類別又不少容易混淆 04/01 10:50
5F:推 ddavid: 看到Nike到底是組織、品牌或服飾呢? 04/01 10:52
6F:推 ddavid: 其中有一些引入前後文或人類知識會有幫助,比如裡面有動詞 04/01 10:56
的確,沒有上下文會是一個蠻困擾的狀況。不過現階段只是想做個粗淺的分類,因此把Nike分到品牌或組織都是可接受,但不會分到服飾或球鞋,除非這個字是「Nike風衣」,「Nike airmax 90」這種有特定形象的才會分到服飾或球鞋
7F:→ ddavid: 那高機率屬於規則類、NBA球員列表資料庫直接比對等等 04/01 10:57
※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:13:11
※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:24:48
8F:推 TuCH: 可以收集很多文章 做 word2vec 04/01 11:25