[问题] 大笔data frame资料的处理

时间Thu Oct 8 17:15:26 2015

[问题类型]: 效能谘询(我想让R 跑更快) [软体熟悉度]: 请把以下不需要的部份删除使用者(已经有用R 做过不少作品) [问题叙述]: 将data frame当中重复出现二次以上的资料抓出，并求取某个栏位的平均值我有一个含有接近四百万比资料的data frame, 格式大概长这个样子 ID1 ID2 Name1 Name2 Value ------------------------------------- m001 g001 mm1 gg1 0.5 m001 g001 mm1 gg1 0.6 m002 g001 mm2 gg1 0.3 m002 g002 mm2 gg2 0.5 m002 g002 mm2 gg2 0.7 m002 g002 mm2 gg2 0.2 m003 g002 mm3 gg2 0.1 .... .... .... ... ... ------------------------------------ 我想把当中重复出现二次以上的资料抓出来，并计算value栏位的平均使得资料变成下面这个样子 ID1 ID2 Name1 Name2 Value ------------------------------------- m001 g001 mm1 gg1 0.55 m002 g002 mm2 gg2 0.47 .... .... .... .... .... ------------------------------------- 用过for loop + aggregate, foreach + doParallel以及用Rcpp写for loop 的方式去处理过，但是实在是相当慢，foreach+doParallel跟Rcpp for的版本几乎都跑了接近快12小时, 不知道版上的各位大大有没有什麽好的建议? [环境叙述]: 请提供 sessionInfo() 的输出结果，里面含有所有你使用的作业系统、R 的版本和套件版本资讯，让版友更容易找出错误 [关键字]: data frame, subsetting --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.215.230 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1444295729.A.DD1.html ※ 编辑: Godkin (140.116.215.230), 10/08/2015 17:16:36

1^F：→ celestialgod: 有试过直接dplyr吗 10/08 17:21

2^F：→ celestialgod: dat %>% group_by(ID1, ID2, Name1, Name2) %>% 10/08 17:22

3^F：→ celestialgod: summarise(value = mean(Value)) 10/08 17:22

4^F：→ Godkin: 有,但就是卡了个要捞出出现两次以上的资料,还是跑挺久的 10/08 17:30

5^F：→ Godkin: 现在用foreach+doParallel+aggregate+dplyr有比较快了 10/08 17:33

6^F：推 celestialgod: summarise直接上length(value)做筛选就好啦 10/08 17:35

7^F：→ celestialgod: 晚一点来测试速度 10/08 17:35

8^F：推 celestialgod: 如果四百万列就要12小时，真的有点夸张 10/08 17:36

9^F：→ Godkin: 没过用length XD, 等等来试试 10/08 17:36

10^F：→ andrew43: 我直觉想到先把字串接起来变成新的栏再说... 10/08 18:10

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

[问题] 大笔data frame资料的处理

热门看板

赞助商连结