作者celestialgod (天)
看板R_Language
标题Re: [问题] 同一档案内的资料合并
时间Wed Sep 16 10:49:55 2015
※ 引述《thea (里A)》之铭言:
: [问题类型]:
: 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
: [软体熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 拿到一个资料,是逗号分隔的档案
: 资料类似如下
: id,20140101
: user,ABC001,1
: user,ADE002,2
: user,TEX001,3
: event,ABC001,T,C
: event,ADE002,P,RUR
: event,TEX001,pej,C
: id,20140201
: user,ABC001,1
: user,ADE002,2
: user,TEX001,3
: event,ABC001,T,C
: event,ADE002,P,RUR
: event,TEX001,pej,C
: .
: .
: .
: 也就是说,资料是以id为单位做切割,所以我需要整理成以下格式
: (以event为资料角度,把id跟user资料加入event)
: id,event1,event2,event3,user
: 20140101,ABC001,T,C,1
: 20140101,ADE002,P,PUR,2
: 20140101,TEX001,pej,C,3
: 20140201,ABC001,T,C,1
: 20140201,ADE002,P,PUR,2
: 20140201,TEX001,pej,C,3
: [程式范例]:
: 直觉上应该是要用回圈来处理?
: 不过因为有一些对照(user跟event)
: 之前处理的格式都是比较整齐的csv/excel
: 第一次遇到这种资料格式
: 找了一些资料有点没头绪,所以上来请教T__T
: 感谢!!
src = 'id,20140101
user,ABC001,1
user,ADE002,2
user,TEX001,3
event,ABC001,T,C
event,ADE002,P,RUR
event,TEX001,pej,C
id,20140201
user,ABC001,1
user,ADE002,2
user,TEX001,3
event,ABC001,T,C
event,ADE002,P,RUR
event,TEX001,pej,C
id,20140301
user,ABC001,1
user,ADE002,2
user,TEX001,3
event,ABC001,T,C
event,ADE002,P,RUR
event,TEX001,pej,C'
lines = readLines(textConnection(src)) # 这里可以直接用 readLines(filename)
splitList = strsplit(lines, ",")
len = sapply(splitList, length)
loc = which(len == 2)
loc = c(loc, length(len)+1)
dat = do.call(rbind, lapply(1:(length(loc)-1), function(i){
len_sub = len[(loc[i]+1):(loc[i+1]-1)]
id = splitList[[loc[i]]]
user = do.call(rbind, splitList[loc[i]+which(len_sub==3)])
event = do.call(rbind, splitList[loc[i]+which(len_sub==4)])
cbind(id[2], event[,2:4], user[match(event[,2],user[,2]),3])
}))
dat
# [,1] [,2] [,3] [,4] [,5]
# [1,] "20140101" "ABC001" "T" "C" "1"
# [2,] "20140101" "ADE002" "P" "RUR" "2"
# [3,] "20140101" "TEX001" "pej" "C" "3"
# [4,] "20140201" "ABC001" "T" "C" "1"
# [5,] "20140201" "ADE002" "P" "RUR" "2"
# [6,] "20140201" "TEX001" "pej" "C" "3"
# [7,] "20140301" "ABC001" "T" "C" "1"
# [8,] "20140301" "ADE002" "P" "RUR" "2"
# [9,] "20140301" "TEX001" "pej" "C" "3"
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.205.27.107
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1442371798.A.0C3.html
1F:推 thea: 啊~~非常感谢版主 QAQ+++ 可以耶~~ 太感恩了!!! 09/16 22:34
2F:推 thea: 请问版主,我跑自己的资料的时候会出现最後面cbind的错误 09/20 11:16
3F:→ thea: 讯息是: 下标超出边界 对过所有参数应该都正确 09/20 11:17
print match(user[,2],event[,2])这个出来看
有没有超过user的matrix大小
4F:→ thea: 找到问题点了!是我在最後一行 user[,2]跟event[,2]对调 09/24 01:01
5F:→ thea: 卡了三天。。。谢谢版主大大 QQ 09/24 01:01
我match写反了...~"~ 我修正 抱歉....
※ 编辑: celestialgod (140.109.73.159), 09/24/2015 08:09:20
6F:推 thea: 没有啦,跑你的资料都可以跑出来!!真的太感谢了!! 09/24 23:58