作者tan800630 (天ㄦ)
看板R_Language
标题[问题]资料处理速率缓慢
时间Fri Apr 28 14:47:58 2017
[问题类型]:
效能谘询(我想让R 跑更快)
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
各位版上的前辈好,最近自己在玩脸书粉丝专页的资料,目前想要统计
某段时间的Po文中总共有哪些人按赞,每人的按赞次数,以及Po文时间,
目前已经先将粉丝专页(柯文哲 哈)某一段时间的po文都抓下来并存成RData档案,
#直接抓getPost()的资料存进去
目前希望将档案整理成 "ID","最早按赞文章日期","最後按赞文章日期","总共按赞次数"
的格式,目前使用的方式仍然是用回圈逐次读取每一个档案并且记录按赞者的
相关内容(我知道回圈效率很低O_Q 自己尝试使用apply系列但失败)
然而由於按赞者众多,目前照着我预设的方式会跑非常久,因此想请教各位有没有
甚麽建议可以让整个程式的处理效率更快速
再麻烦各位前辈指教~~~~~
[程式范例]:
程式码
https://pastebin.com/e9WY2AjD
范例档案下载处(放了三篇文章的档案,请参考)
http://doora.qiniudn.com/lH2Z7.rar
[环境叙述]:
R version 3.3.2 (2016-10-31)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 8.1 x64 (build 9600)
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950
[2] LC_CTYPE=Chinese (Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
[4] LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] Rfacebook_0.6.12 httpuv_1.3.3 rjson_0.2.15 httr_1.2.1
loaded via a namespace (and not attached):
[1] R6_2.2.0 tools_3.3.2 Rcpp_0.12.9
[关键字]:
回圈
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 120.108.89.218
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1493362082.A.F80.html
1F:推 f496328mm: 避免用for,用apply家族 04/28 15:09
2F:→ f496328mm: 我当初刚学就是这样被告知的QQ 04/28 15:10
3F:→ clansoda: 不彷试试C大在上面介绍的foreach与iterators两个library 04/28 19:05
4F:→ obarisk: 理论上jit的for和apply应该差不多 04/28 19:51
5F:→ tan800630: 感谢楼上几位大大给予方向:) 04/29 14:27
6F:→ bcs: 用data.table会更快吧... 05/03 13:49