Python 板


LINE

大家好,小弟想再次求救 我有個表格,如圖一 圖一https://imgur.com/a/5r5SwNr 我根據K欄位count出重複值如L欄位 但這不完全是我要的結果 我要的結果如圖二 圖二https://imgur.com/a/Bmw8f0o 我在Excel做的邏輯是: 1.首先從K欄位count出重複出現的url_hash,接著將重複的url_hash當中keyword_id 用vlookup去找重複出現的keyword_id 2.當找到這些重複keyword_id後,又將這些連帶出現的url_hash 用vlookup再找重複的url_hash 3.重複上述1和2直到整個資料找完找不到為止,就形成圖二這樣的結果 目前因為資料很多,需要用python做完比較快 但小弟不知道從何下手,根據EXCEL用的函數也就countifs 還有 Vlookup 不知道在python是要用IF ELSE? 還是有其他可以funtion可以幫到我呢? 任何意見都歡迎大家提供給我參考,謝謝。 ------------------------------------------------------------------------- 更新後續Code,目前已完成,感謝大家~ https://pastebin.com/j38vRBUs --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.226.172.26 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1658912850.A.E15.html ※ 編輯: DKnex (36.226.172.26 臺灣), 07/27/2022 17:09:57
1F:推 lycantrope: 你沒解釋輸出要什麼啊 是同組的數值還是只要算個數07/27 17:21
噢! 抱歉,是同組數值沒錯。 這筆資料要分類成不同組別 No.1&2H就是一個組別 輸出結果像圖二這樣就好。 ※ 編輯: DKnex (111.71.216.39 臺灣), 07/27/2022 17:36:11
2F:→ lycantrope: https://pastebin.com/NS44Qfgs 07/27 18:48
謝謝ly大,我研究一下uuid
3F:→ chang1248w: groupby ? 07/28 10:13
我試過groupby,但好像無法將2個欄位所有同時出現的值group在一起.... ※ 編輯: DKnex (118.169.3.177 臺灣), 07/28/2022 10:18:05
4F:推 heavyking02: 真滴有點難懂你的問題,不確定這樣對不對,先新增一 07/28 14:58
5F:→ heavyking02: 個空的column,然後df.groupby([‘count’,’url_hash 07/28 14:58
6F:→ heavyking02: ’,’keyword_id’])[‘新增的空欄位‘].sum() 07/28 14:58
我當初也有試過,但其實不單純要sum XD
7F:推 lambo: 所以您是要分別數keyword_id跟url_hash之後,再依url_hash 07/28 19:11
8F:→ lambo: 排列而已嗎07/28 19:11
不止哦,是從url找到一群keyword後再從這群keyword找下一群url,重複找到沒有為止 抱歉,小弟形容得非常糟糕......
9F:推 lycantrope: grouping,keyword url有相關就分成一組07/28 21:28
10F:→ lycantrope: uuid只是用來產生測試資料,靠union_find把資料配對07/28 21:29
ly大是對的! 感謝您提供的程式碼讓我學習QQ 我後來只用你def後的code套進資料裡面就成功了!雖然和純手工excel資料上有一點差異 我沒用前面uuid是因為輸出的url那欄就算/t後,資料好像是uuid4隨機生成的代碼 跟原始資料不一樣,所以就跳過了。 ※ 編輯: DKnex (36.226.172.26 臺灣), 07/29/2022 09:57:43
11F:推 lycantrope: uuid只是用來產生測試資料跟問題本身無關...07/29 14:11
哈哈哈,對的!我後來有爬文看了uuid4的意思才慢慢了解 對了ly大,想再請教一下,因為我忘記說在手動excel做的時候,我會把group好第一 次的資料從原本的data整個剪下複製到新的表格儲存。然後剩下的資料再group第二次 我邏輯上卡關的是,我知道excel整個手作流程,但看您的code發現很難def時候就 只做一次,我有試著用duplicated和drop去做,但都無法只做一次就清除... 這個task是不是真的很難QQ,還是有其他function可以一起運用呢? ※ 編輯: DKnex (118.169.3.177 臺灣), 07/29/2022 14:25:44 目前我打算先了解find 和union 再試試完成第一次find後drop 然後重複改個迴圈試試 不知道這個思路是否是對的? ※ 編輯: DKnex (111.71.216.20 臺灣), 07/29/2022 14:30:44
12F:→ lycantrope: 不需要drop find+union已經把相關group都串成一起 07/29 16:02
13F:→ refusekkk: 我想讀成dict 07/29 20:51
※ 編輯: DKnex (118.169.22.212 臺灣), 08/03/2022 17:19:23







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP