作者f496328mm (为什麽会流泪)
看板R_Language
标题[问题] 资料输出 write.csv 速度慢
时间Mon Nov 7 22:00:25 2016
- 问题: 当你想要问问题时,请使用这个类别
[问题类型]:
效能谘询(我想让R 跑更快)
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
我目前使用write.csv输出data,再利用bigmemory输出des/bin档,
因为资料量有点多,总共超过100G,只能利用这样的方式,降低RAM的使用量
实际上是,有将近50种变数,每个大约2~3GB,
想问问看有没有其他的方法,目前可能会朝购买SSD的方向走
直接买1TB的SSD
PS :
做data mining,不知道重要变数,所以只好生一堆变数出来,
再用一些演算法去降维
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.66.209.212
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1478527228.A.4F9.html
1F:推 Edster: 输出成RData吧,容量小很多:save(X, file = "abc.RData") 11/07 22:06
2F:推 Edster: 若是要csv, 可考虑readr::write_csv, 但他用;分隔 11/07 22:09
3F:→ Edster: excel打开格式会跑掉. 11/07 22:09
谢谢 我试试看
※ 编辑: f496328mm (114.36.53.214), 11/07/2016 22:15:56
4F:→ celestialgod: data.table fwrite 11/07 22:28
library(data.table)
?fwrite
找不到耶??
上网GOOGLE 好像被拿掉了@@
※ 编辑: f496328mm (114.36.53.214), 11/07/2016 22:45:55
5F:→ celestialgod: devtools::install_github("Rdatatable/data.table" 11/07 23:01
6F:→ celestialgod: ) 11/07 23:01
7F:→ celestialgod: 还在development阶段 11/07 23:01
那有可能会不稳吗?
※ 编辑: f496328mm (114.36.53.214), 11/07/2016 23:03:25
8F:→ celestialgod: 你如果要来拿production就建议不要 11/07 23:08
9F:→ celestialgod: 训练资料,自己玩,我觉得还算稳定 11/07 23:09
好
谢谢
我网路上看,fwrite之前在data.table里,不知道为什麽拿掉了,可能是去改进吧
※ 编辑: f496328mm (42.66.209.212), 11/07/2016 23:14:07
所以要1.9.8以後才会有这个函数吗? fwrite
※ 编辑: f496328mm (42.66.209.212), 11/07/2016 23:26:03
12F:→ celestialgod: 1664 11/07 23:26
13F:→ celestialgod: 他还有一些问题没修正 11/07 23:26
14F:→ celestialgod: 基本上是1.9.8才会正式RELEASE这个函数 11/07 23:26
15F:→ celestialgod: 我记得没错的话 最後一码是奇数 现在都被称作 11/07 23:27
16F:→ celestialgod: 开发版本,偶数是正是释出版 11/07 23:27
17F:→ Wush978: binary format, ex: protocol buffer 11/08 02:28
18F:→ Wush978: 或是saveRDS之类的函数 11/08 02:29
19F:→ Wush978: fwrite 那些应该只是csv 的存取快,但是若你的选择不只是 11/08 02:29
20F:→ Wush978: csv, 用binary一般来说会快满多的 11/08 02:29