作者pttnewborn (pttnewborn)
看板Python
标题[问题] 请问项目计算
时间Sun Nov 22 22:35:37 2020
大家好:
最近刚学 Python ,学习到从抓取奥运csv档进行相关统计,
其中练习2--我要算某国的得奖总数
练习2答案如下:
events = df[df['NOC'] == 'CHN'].drop_duplicates
(subset = ['Event', 'Games'], inplace = False)
我的问题
Q1:我在导入CSV时,已经做过
p_duplicates(subset = ["Name","Sex","Age","Height","Weight","Team","NOC","Games","Year","Season","City","Sport","Event","Medal"],
inplace = True)
为什麽练习2还要再去重?
Q2:我本来是用events = df[df['NOC'] == 'CHN'].counts()
和events = df[df['NOC'] == 'CHN'].value_counts()
不过第一个数字不对,第二个出现错误
请问问题在哪?
Q3: inplace=True/False ,书上是说,True是在原资料做去重,False是另外创建一组资料,
可是True时,我看他资料df还是未去重,是我误会了吗?
请大大帮忙指点,thx
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.117.51.124 (中国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1606055739.A.5F4.html
1F:推 TuCH: 去重是甚麽 去重复? 11/22 23:28
2F:推 TitanEric: 楼上 应该是 11/22 23:59
3F:推 TuCH: Q1 多做几次去重复除了浪费运算 不会影响结果 11/23 00:43
4F:→ TuCH: Q2 我猜是要指定栏位变成series才会变成你的样子 11/23 00:44
5F:→ TuCH: Q3 理论上你应该没理解错 可以你要show一下你的结果才能知道 11/23 00:45
6F:→ TuCH: 问题出在哪 11/23 00:45
7F:→ TuCH: 问题模糊 资料不清楚 其实很难给你想要的答案 11/23 00:46
8F:推 art1: 因为基於所有栏位进行的去除重复很容易跟只基於某些栏位的去 11/23 05:31
9F:→ art1: 除重复的结果不一样 11/23 05:31
10F:→ art1: 问题二应该是因为 counts 会计算到重复值,而 value_counts 11/23 05:38
11F:→ art1: 则要看是出现什麽错误 11/23 05:39
12F:推 art1: 我看书上是写可以用 nuniques() 来替代 11/23 05:42