作者penguinZZK (y.l)
看板Python
标题[问题] dataframe重复的row计数
时间Sun Jul 26 17:55:29 2020
各位版友好,想请教关於dataframe的问题
假设我现在有一份表格(df)如下
A B C D
a 1 2 3
b 1 2 3
c 4 5 6
a 1 2 3
a 1 2 3
c 4 5 6
请问有方法计算重复的row分别出现几次吗?
目前知道 df[df.duplicated()].count() 可以得到所有重复出现的row的总次数
还有 df.drop_duplicates() 可以删除重复的资料
现在想新增一个column放重复次数,再将重复的部分删掉
希望能做成
A B C D count
a 1 2 3 3
b 1 2 3 1
c 4 5 6 2
但找不太到怎麽先把重复几次记下来再删掉
希望版友指点,先感谢各位!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.113.177.33 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1595757331.A.474.html
1F:推 mthsieh: df.groupby(list(df.columns)).size().reset_index(name= 07/26 18:14
2F:→ mthsieh: ='count') 07/26 18:14
3F:推 hongyan: df.T.values_counts() 07/26 18:36
4F:→ Starcraft2: 推一楼大 二楼的看起来会报错? 07/27 02:46
5F:→ penguinZZK: 用m大的方法成功了,谢谢大家回覆! 07/27 09:30