Python 板


LINE

嗨大家好,我有一個表格像是這樣 http://i.imgur.com/ld7tHmC.jpg 最後一欄Note是這個球員的受傷資訊,可以看到有 right hamstring injury、concussion 而我現在只需要部位不需要其他描述,例如 sore lower back我只需要back,right knee injury只需要knee。 我第一個想法是把所有部位集中成一個list,然後split字串做mapping,但這個做法有點費時。 第二個想法是搜集形容詞並抓形容詞後的單字,但資料的字串順序又不是那麼整齊。 想問各位有什麼好的提取法嗎? 附上網址 https://reurl.cc/xZxR7E --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.30.149 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1583372474.A.EAB.html ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:45:21 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:46:25
1F:→ bjchiou: 抓right left後的第一個字,其他另外設計? 03/05 09:49
這有點像我的想法2,但因為我有約莫2萬筆資料,排序都不完全一樣,而除了right,left之外也有很多不同的形容詞,所以這個想法有點難度
2F:→ ddavid: 我最近才解決一個很類似的問題(但複雜很多),我只能說以 03/05 09:56
3F:→ ddavid: 你這個問題的規模,第一種想法有可能反而會是實作最快的。 03/05 09:57
※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 09:58:12
4F:→ ddavid: 第二個想法只能做為萬一出現不在列表中的部位時,嘗試自動 03/05 09:59
5F:→ ddavid: 抓取部位的候補想法 03/05 09:59
6F:→ ddavid: 因為你的範圍限定在球員,常見傷病種類會有一定的範圍,第 03/05 10:00
7F:→ ddavid: 一種想法未必如想像中耗時。而且可以在有列表未出現的案例 03/05 10:01
8F:→ ddavid: 時再直接針對該案例補充關鍵字即可,不需要要求第一次建立 03/05 10:01
9F:→ ddavid: List就是完整的 03/05 10:01
10F:→ ddavid: 或者也可反過來,你先進行第二種想法做為人力添加關鍵字的 03/05 10:02
11F:→ ddavid: 輔助,這樣也可以節省一些時間 03/05 10:03
12F:推 papple23g: 維持第一個想法+1 如果該欄有未包含部位就報錯 直到沒 03/05 10:04
13F:→ papple23g: 有報錯為止 03/05 10:04
14F:→ papple23g: assert all((body_part in note_text) for body_part i03/05 10:04
15F:→ papple23g: n body_part_list),'需要更新身體部位的欄位:'+note_te03/05 10:04
16F:→ papple23g: xt03/05 10:04
17F:→ ddavid: 我自己解的問題是用多重機制共同驗證來幫每個關鍵字算積分03/05 10:05
18F:→ ddavid: 做排名然後優先從高分關鍵字選下來,但那是因為我的關鍵字03/05 10:06
19F:→ ddavid: 種類甚至無法限定在名詞,還可能是一個句子。你這work單純03/05 10:07
20F:→ ddavid: 許多,我想是不用這麼費工。03/05 10:07
了解,感謝以上大大,那我先以想法1來做,有什麼更好的解法再丟上來 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:31:57 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 12:32:16
21F:→ alvinlin: 為什麼不用regex? 03/05 14:51
22F:→ alvinlin: 把身體部位寫成pattern比對即可 03/05 14:52
這也是接近想法1,但比較不好處理的是我不知道全部的身體部位,而且裡面也有提到像是illness, concussion 等症狀,這也是我想留下來的 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 15:31:13
23F:→ alvinlin: 其實是不太一樣。還有另一個選擇PyParsing 03/05 17:14
25F:→ alvinlin: docs/pycon06-IntroToPyparsing-notes.pdf 03/05 17:39
26F:推 ddavid: 我是總覺得這個問題規模應該不至於要搞到分析語句詞性XD 03/05 18:15
27F:→ ddavid: NBA球員範圍而已,光是總量可能都未必多到哪裡去,部位名 03/05 18:16
28F:→ ddavid: 稱也應該重複使用的字詞很多,這應該是人力可及的範圍XD 03/05 18:16
29F:→ ddavid: 而且先基本做看看,發現真的不行或將來要擴展到資料很多的 03/05 18:17
30F:→ ddavid: 範圍,再補上關鍵字自動萃取機能來輔助也還來得及 03/05 18:17
31F:推 vi000246: 做詞性分析,把名詞提取出來 03/05 18:21
32F:推 vi000246: 剛剛用這個試了一下 成功率很高 03/05 18:25
33F:→ vi000246: https://parts-of-speech.info/ 03/05 18:25
感謝各位的建議,後來是把notes裡的字用split切開後丟進一個list,去掉長度為1的廢字後做Counter,然後再把left,right等出現很多次的形容詞去除,慢慢留下出想要的字 ※ 編輯: moodoa3583 (223.137.30.149 臺灣), 03/05/2020 22:44:05
34F:→ moodoa3583: 噢對,如果各位有興趣知道的話,2000到2020年最多球員 03/05 22:49
35F:→ moodoa3583: 受傷的部位是膝蓋,然後依次是腳踝,背部,腳掌,腿後 03/05 22:49
36F:→ moodoa3583: 肌(hamstring ) 03/05 22:49
37F:推 shala: 只能用關鍵字抓吧 03/07 10:02







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP