Re: [问题] 整理资料

时间Sun Mar 19 11:05:30 2017

※ 引述《allen1985 (我要低调拯救形象)》之铭言： : [问题类型]: : 效能谘询(我想让R 跑更快) : [软体熟悉度]: : 使用者(已经有用R 做过不少作品) : [问题叙述]: : 整理资料不使用for loop : [程式范例]: : 资料如下: : data <- matrix(c("S11","R1","O11", : "S11","R2","O12", : "O11","R3","O12", : "S21","R1","O21", : "S21","R2","O22", : "O21","R3","O22", : "S11","R1","O11", : "S11","R2","O12", : "O11","R3","O12"), ncol = 3, byrow = T) : 我想要把资料整理成 : r.data <- matrix(c("S11","O11","O12", "2", : "S21","O21","O22", "1"), ncol = 4, byrow = T) : 其中第四个Column 放的是这组资料出现几次 : 简单讲就是原本的资料是三个rows为一组我想把资料 : 每一个unique组别抓出来并算出他出现几次 : 我先用了很笨的两个for loops搞定但想问问看有没有好的方法 : 基本上第一个for loop 先把资料整理成 : r.data <- matrix(c("S11","O11","O12", : "S21","O21","O22"), ncol = 3, byrow = T) : 也就是先把unique的算出来 : 第二个for loop再去算每组unique的出现几次变成想要的data.frame : 谢谢 : 简单讲三个rows 是一组提供四种解法： dataMat <- matrix(c("S11","R1","O11", "S11","R2","O12", "O11","R3","O12", "S21","R1","O21", "S21","R2","O22", "O21","R3","O22", "S11","R1","O11", "S11","R2","O12", "O11","R3","O12"), ncol = 3, byrow = T) # aggregate colSplit <- split(dataMat, rep(1L:ncol(dataMat), each = nrow(dataMat))) aggregate(rep(1, nrow(dataMat)), colSplit, sum) # paste0 rowCollapse <- do.call(function(...) paste(..., sep = "_"), split(dataMat, rep(1L:ncol(dataMat), each = nrow(dataMat)))) countRows <- table(rowCollapse) cbind(data.frame(do.call(rbind,strsplit(names(countRows), "_")), stringsAsFactors = FALSE), Freq = countRows) # data.table library(data.table) DT <- data.table(dataMat) DT[ , .N, by = .(V1, V2, V3)] ## note, column数众多下面这样也行 # DT[ , .N, by = eval(paste0("V", 1:ncol(DT)))] ## 或是by里面放你要算的column name的character vector也行 ## ex: # colsCoun <- c("V1", "V2", "V3") # DT[ , .N, by = colsCoun] # dplyr library(dplyr) DF <- as.data.frame(dataMat, stringsAsFactors = FALSE) DF %>% group_by(V1, V2, V3) %>% summarise(count = n()) ## note, column数众多下面这样也行 # DF %>% group_by_(.dots = paste0("V", 1:ncol(DF))) %>% # summarise(count = n()) ## or # colsCoun <- c("V1", "V2", "V3") # DF %>% group_by_(.dots = colsCoun) %>% # summarise(count = n()) 效率应该是：data.table > dplyr > aggregate > paste0 -- R资料整理套件系列文： magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9 data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.235.90.162 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1489892734.A.C86.html

1^F：推 allen1985: 谢谢又学到一课了！ 03/19 11:49

不客气，欢迎多来发问XDD

2^F：→ allen1985: 虽然这只解决第二个问题这样写漂亮多了 03/19 11:51

unique column的部分，在算count的时候就算做拉~~~

3^F：→ allen1985: 我的问题是在原本的资料是三个rows为单位 03/19 13:05

4^F：→ allen1985: 我会自己想一下的 03/19 13:05

没有注意看，抱歉QQ 这个也不难解决... 我写一下等我一下

5^F：→ allen1985: 感谢代替我老板感谢你... 03/19 13:08

搞定，请参考下面： # aggregate colSplit <- split(dataMat, rep(1L:ncol(dataMat), each = nrow(dataMat))) idx <- rep(1:ceiling(nrow(dataMat)/3), each = 3L, length = nrow(dataMat)) aggregate(rep(1, nrow(dataMat)), c(colSplit, list(idx = idx)), sum) # data.table library(data.table) DT <- data.table(dataMat) DT[ , idx := rep(1:ceiling(nrow(DT)/3), each = 3L, length = nrow(DT))] print(DT) # V1 V2 V3 idx # 1: S11 R1 O11 1 # 2: S11 R2 O12 1 # 3: O11 R3 O12 1 # 4: S21 R1 O21 2 # 5: S21 R2 O22 2 # 6: O21 R3 O22 2 # 7: S11 R1 O11 3 # 8: S11 R2 O12 3 # 9: O11 R3 O12 3 DT[ , .N, by = .(idx, V1, V2, V3)] # dplyr library(dplyr) DF <- as.data.frame(dataMat, stringsAsFactors = FALSE) DF %>% mutate(idx = rep(1:ceiling(nrow(DT)/3),each = 3L,length= nrow(DT))) %>% group_by(idx, V1, V2, V3) %>% summarise(count = n()) # idx V1 V2 V3 count # <int> <chr> <chr> <chr> <int> # 1 1 O11 R3 O12 1 # 2 1 S11 R1 O11 1 # 3 1 S11 R2 O12 1 # 4 2 O21 R3 O22 1 # 5 2 S21 R1 O21 1 # 6 2 S21 R2 O22 1 # 7 3 O11 R3 O12 1 # 8 3 S11 R1 O11 1 # 9 3 S11 R2 O12 1

6^F：→ allen1985: 再次感谢让我研究一下加到我的程式里 03/19 13:17

不客气，我一开始没有看懂你的问题，抱歉Orz ※ 编辑: celestialgod (36.235.90.162), 03/19/2017 13:20:23

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

Re: [问题] 整理资料

热门看板

赞助商连结