作者DKnex (DK)
看板Python
标题[问题] csv选取资料後如何存档?
时间Thu Jul 21 14:31:44 2022
大家好,小弟完全新手
目前手边有笔CSV资料原本是[48023 rows x 10 columns]
我目标是:
1.将CSV里面10个column筛选其中3个即可
2.从这3个columns当中的“Rank”筛选只出现1的值
3.筛选完变[553 rows x 3 columns]
然後再从url_hash当中,筛选重复出现至少5次或以上的值
4.最後保留这些值输出成新的CSV档案
code如下:
https://imgur.com/a/QdjZrET
我现在只进行到目标2,但我发现输出新的CSV只有把档案从10个columns变成3个
并没有只保留Rank只出现1的值 (还是[48023 rows x 3 columns])
我猜测是没把数据写成dataframe所以存不了我筛选的资料
但实在看不懂dataframe要如何操作我的目标2和3
希望能得到各位的指点,先谢谢大家。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.4.244 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1658385107.A.1CA.html
1F:推 noshortcut4u: 你在df筛选的rank的那边要重新assign给df 07/21 15:05
2F:推 lycantrope: df[df["rank"]==1]只是筛选,并没有改变原始df 07/21 15:09
3F:→ lycantrope: assign, df = df[df["rank"]==1] 07/21 15:11
感谢楼上2位大大,我茅塞顿开QQ
df = pd.read_csv('Book1.csv',
usecols=["keyword_id", "rank", "url_hash"])
df = df[df["rank"] == 1]
print(df)
df.to_csv("test1.csv", index=False)
CSV档案出来立马就缩短成我要的
接下来剩下目标3,再从URL_HASH抓出重复出现5次的值QQ
谢谢两位!
※ 编辑: DKnex (118.169.4.244 台湾), 07/21/2022 15:14:20