R_Language 板


LINE

※ 引述《clansoda (小笨)》之铭言: : 各位好 单一变数创造dummy variable网路已经有很多答案了 : 我现在遇到的是要比对多个变数来创造dummy variable : 假设我的data长下面这样 : rowname a b c : 1 2 5 NA : 2 1 NA NA : 3 1 2 3 : 4 3 NA NA : 5 2 4 NA : 6 1 4 5 : 希望能得到 : is.1 is.2 is.3 is.4 is.5 : 1 : FALSE TRUE FALSE FALSE FALSE : 2 : TRUE FALSE FALSE FALSE FALSE : 3 : TRUE TRUE TRUE FALSE FALSE : 4 : FALSE TRUE FALSE TRUE FALSE : 5 : FALSE TRUE FALSE TRUE FALSE : 6 TRUE FALSE FALSE TRUE TRUE : 6 : 这个例子是个简单化的范本 : 一个row有可能分属好几个category 以第一个row举例 : 他就属於第二类跟第五类 第二个row则只属於第一类 : 我现在的写法是 : for (i in 1 : 5) { : dat[, paste0("is.category", "i") := .SD[, 2 : 4] %in% "i" %>% any, : by = 1 : nrow(dat)] : } : 目前我只会这样写 但是这个方法超慢 以我50万个rows为例就要跑20分钟 : 我相信有更好的写法 只是我不知道如何写 因此想请教各位 用矩阵运算的话,3秒内就可以得到结果了 N <- 500000L numLvls <- 100L mat <- matrix(NA, N, numLvls) # data genertion system.time({ for (i in 1L:N) { j <- sort(sample(1L:numLvls, sample(1L:numLvls, 1L))) mat[i, 1:length(j)] <- j } }) # user system elapsed # 21.13 0.02 21.19 system.time({ idx <- N * (mat - 1L) idx <- idx[which(!is.na(idx))] + which(!is.na(mat), arr.ind = TRUE)[, 1] out <- matrix(FALSE, nrow(mat), ncol(mat)) out[idx] <- TRUE dim(out) <- dim(mat) }) # user system elapsed # 2.33 0.39 2.72 library(pipeR) mat[1, ] %>>% (.[which(!is.na(.))]) # [1] 1 4 6 7 10 12 13 16 18 20 23 24 27 29 31 32 34 38 39 42 43 45 47 49 50 52 54 56 57 # 61 62 66 67 68 69 70 72 74 75 78 80 81 82 86 87 91 97 98 99 which(out[1, ]) # [1] 1 4 6 7 10 12 13 16 18 20 23 24 27 29 31 32 34 38 39 42 43 45 47 49 50 52 54 56 57 # 61 62 66 67 68 69 70 72 74 75 78 80 81 82 86 87 91 97 98 99 for (i in 1L:N) stopifnot(all.equal(mat[i, ] %>>% (.[which(!is.na(.))]), which(out[i, ]))) # no stop~~~~~ 产生资料的时间都已经可以跑七八次了Orz -- R资料整理套件系列文: magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9 data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.170.42.16
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1482765468.A.177.html ※ 编辑: celestialgod (118.170.42.16), 12/26/2016 23:21:47
1F:→ clansoda: 感谢版大 只是这个我看不太懂在做什麽 12/27 12:26
2F:→ clansoda: 为什麽要 N *(mat - 1) 12/27 12:27
3F:→ clansoda: 下面那行也看不太懂 而且套我的data进去跑是错的 12/27 12:28







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP