作者ctr1 (【积π】)
看板Python
标题[问题] pd.read_csv ParserError
时间Wed Oct 23 22:03:19 2019
df = pd.read_csv('test3.log', sep="\s+", header=None, prefix='COL')
文本分隔是以' '或大於一个空白切分
没有header
但是当切到内容含有 // 时会报错
ParserError: Error tokenizing data. C error: Expected 6 fields in line 2, saw
7
有查过使用error_bad_lines=False属性 但想保留资料
想问问看是否有不需要replace整份文本而可以正常read_csv档
因为csv档又大又多,若是一行一行replace很耗时费力
感谢大大
-------------文本内容-------------
Jan 2 07:50:41 clftp1 ftpd[14459]: NOOP
Jan 2 07:50:41 clftp1 ftpd[14459]: CWD //MG11T36.1
Jan 2 07:50:41 clftp1 ftpd[14459]: PORT
Jan 2 07:50:41 clftp1 ftpd[14459]: LIST
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.160.178.188 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1571839401.A.F84.html
※ 编辑: ctr1 (118.160.178.188 台湾), 10/23/2019 22:16:14
1F:推 TitanEric: 这应该是因为你有多//所以导致attributes不一致 看你 10/23 22:36
2F:→ TitanEric: 要先做前处理移掉还是你指定要7个attributes 空值填N 10/23 22:37
3F:→ TitanEric: aN 10/23 22:37
4F:→ ctr1: 没办法read_csv->dataframe,是否只能一行一行的前处理呢 10/23 22:38
5F:推 TitanEric: 可以一行处理 就用python读档处理後再存新档 10/24 10:35
7F:→ ctr1: 谢谢你~ 10/24 14:50