[问题]1G多大资料预处理

时间Sat Sep 21 14:13:21 2019

想请问各位版上的前辈对比较大的纯文字档(约1.5G)预处理怎麽做比较好我的做法是先读ftp.log_20190103 边处理边把资料写进新的档案ftp.log_new中程式码如下希望各位前辈给点明灯感激不尽 file_write_obj = open("ftp.log_new", 'w') with open("ftp.log_20190103",'r') as f: for line in f: try: line_list = list(line) line_list.insert(6,',') line_list.insert(16,',') line_list.insert(24,',') nPos=line_list.index(']') line_list.insert(nPos+2,',') str_2="".join(line_list) file_write_obj.writelines(str_2) except : pass file_write_obj.close() --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.25.143.98 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1569046403.A.5CE.html

1^F：推 yiche: 我的习惯是换成hdf5来存 09/21 17:43

2^F：推 TitanEric: 1G的话pandas还可以应付 09/21 18:32

3^F：→ TitanEric: 不然用spark 09/21 18:32

4^F：→ ctr1: 很多个1.xG的档案会持续越来越多，LOG档 09/21 18:42

5^F：推 TitanEric: pandas在读档时候可以设定chunks大小 09/21 19:15

6^F：推 ssivart: hdf5 compress + chunk 09/21 21:58

7^F：推 sxy67230: hdf5储存，如果有需要随机访问的话，用mmap 09/22 09:13

8^F：推 marc47: https://www.code-learner.com/python-read-big-file-exam 09/22 19:49

9^F：→ marc47: ple/ 09/22 19:49

10^F：推 te87037: 如果是串流资料可以用逐行读取的方式 09/26 19:55

11^F：推 husky0427: 看起来比较像csv 用pandas read_csv吧 09/27 19:07

12^F：→ husky0427: 再看一次发现是要纯文字转csv，那就readline 或是 lin 09/27 19:09

13^F：→ husky0427: ecache 09/27 19:09

14^F：推 FreedomTrail: pymongo 管理资料有用......吧？ 10/07 02:24

赞助商连结

您可能会有兴趣的文章

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称，例如：Gossiping 或站内搜寻

TOP

WEB批踢踢(PTT)

Python 板

[问题]1G多大资料预处理

热门看板

赞助商连结