作者Edster (Edster)
看板R_Language
标题Re: [问题] merge 3 tables with summing common var
时间Mon Oct 12 22:20:34 2015
不会复杂的写法,简单一点就好,好懂好维护,虽然merge爆慢。
只会这样(原本想用do.call, 结果不能设定 do.call(merge, data, all = T).
看哪位兄台能教教 do.call 之中如何设定"what"其余的参数
a=cbind("A"=sample(1:100,5), "B"=sample(1:50,5), "a"=rnorm(5), "e"=rnorm(5))
b=cbind("A"=sample(1:100,10),"B"=sample(1:50,10),"b"=rnorm(10),"e"=rnorm(10))
c=cbind("A"=sample(1:100,15),"B"=sample(1:50,15),"c"=rnorm(15),"e"=rnorm(15))
d=cbind("A"=sample(1:100,20),"B"=sample(1:50,20),"d"=rnorm(20),"e"=rnorm(20))
L = list(a,b,c,d)
merge(L[[1]],L[[2]],by=c("A"))
merge(L[[1]],L[[2]],by=c("A","B"))
merge(L[[1]],L[[2]],by=c("A","B"),all=T)
MultiMerge = function(L, by){
M=L[[1]]
for(i in 2:length(L))
M = merge(M,L[[i]],by=by,all=T)
return(M)
}
M=MultiMerge(L,by=c("A","B"))
dataCol = c("e.")
M = data.frame(M[,-grep(dataCol, colnames(M))],
m = rowSums(M[,grep(dataCol, colnames(M))], na.rm=T))
抱歉我一开始误会了,原楼主还需要把相同变数名称的列在固定栏位相加。
不过对我来说那已经不叫merge,在我的领域呢,这叫做update
比如说两张 raster 地图(extent并不相同)套叠并相加。
如果你的A, B两栏是唯一的,例如地图的座标,
用match在数个data.frame中找对应更快。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.249.19.73
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1444659636.A.249.html
※ 编辑: Edster (111.249.19.73), 10/12/2015 22:22:15
※ 编辑: Edster (111.249.19.73), 10/12/2015 22:39:24
※ 编辑: Edster (111.249.19.73), 10/12/2015 22:56:05
1F:推 celestialgod: 我想E大没看懂他要做的事情... 10/12 23:01
2F:推 celestialgod: 多个merge 可以考虑Reduce 原po有引用我的推文 10/12 23:02
3F:→ cywhale: 的确没法单纯用merge完成,C大第一个方法最简洁易懂了! 10/12 23:08
※ 编辑: Edster (140.112.64.48), 10/13/2015 13:55:17
※ 编辑: Edster (140.112.64.48), 10/13/2015 14:59:42
※ 编辑: Edster (140.112.64.48), 10/13/2015 15:00:13
※ 编辑: Edster (140.112.64.48), 10/13/2015 15:04:21
4F:→ celestialgod: 这样做你无法自动控制哪些column重复,哪些要做和 10/13 15:03
5F:→ celestialgod: 不过runSums的作法很漂亮 10/13 15:04
6F:→ Edster: 试试看吧,可能比c大的慢就是了,毕竟merge会为了找对应 10/13 15:05
7F:→ Edster: 不断创新列,这样比一开始就搜寻所有data.frame的对应值慢 10/13 15:06
8F:推 cywhale: 感谢E大提供解法 抱歉一开始造成误解,因为data特性, 10/13 19:31
9F:→ cywhale: 其实是不同取样站有不同批且不同样本种类、个数的资料, 10/13 19:32
10F:→ cywhale: 所以一开始就朝处理不同行、列数的多个data去写code 10/13 19:38
※ 编辑: Edster (140.112.64.48), 10/13/2015 20:21:49