Re: [问题] 读取JSON 整理表格後输出成CSV

时间Sun Feb 19 02:52:19 2017

※ 引述《ginseng21 (SweetCow)》之铭言： : [问题类型]: : 程式谘询(我想用R 做某件事情，但是我不知道要怎麽用R 写出来) : 效能谘询(我想让R 跑更快) : [软体熟悉度]: : 入门(写过其他程式，只是对语法不熟悉) : [问题叙述]: : 我想要从建管Open Data平台上捞出新北市板桥区的使用执照 : 然後依照每个地址展开表格，希望得到每个地址後面有对应的基本资料 : 之後再将表格输出为CSV档案 : 平台提供的介接服务一次只能传回100笔资料，而每一笔资料会有1~多笔地址 : 我只有想到两个for回圈的写法，不晓得是否能用lapply写来提升效能??? : 而尝试过後发现这样表格会太大张 : 因此我改成将每笔地址与对应的ID输出一份CSV档案 : 每个基本资料与对应的ID再输出成另一份CSV档案 : 我在尝试的过程中，有一段使用rbind.data.frame会错，但使用rbind.pages却成功 : 也想要请教rbind.data.frame错误的原因??? : 介接服务网址: : http://building-apply.publicwork.ntpc.gov.tw/opendata/ : OpenDataSearchUrl.do?d=OPENDATA&c=BUILDLIC : &%E9%96%80%E7%89%8C.%E8%A1%8C%E6%94%BF%E5%8D%80=%E6%9D%BF%E6%A9%8B%E5%8D%80 : &Start=1 : 介接说明:http://mcgbm.taichung.gov.tw/opendata/docs/a1.html : [程式范例]: : url <-'http://building-apply.publicwork.ntpc.gov.tw/opendata/ : OpenDataSearchUrl.do?d=OPENDATA&c=BUILDLIC : &%E9%96%80%E7%89%8C.%E8%A1%8C%E6%94%BF%E5%8D%80=%E6%9D%BF%E6%A9%8B%E5%8D%80 : &Start=' : urltmp <- list() : datatmp <- list() : addreall <- list() : info <- list() : st1 = Sys.time(); : for( i in 1:10) #假设资料是1000笔以内 : { : st = Sys.time(); : urltmp [i] <- paste(url,(i-1)*100+1,sep="") : # 将每个介接网址用LIST储存 : # 介接网址的Start=可以控制从第几笔资料开始提供100笔 : datatmp <- as.data.frame(fromJSON(urltmp[[i]])) : addre <- datatmp$data.门牌 : ID <- datatmp$data._id : for (t in 1:100) : {addre[[t]]$ID <-ID[t,]} : #将每一笔的门牌串上ID : addreall[[i]] <- do.call(rbind.data.frame, addre) : info[[i]] <- as.data.frame(datatmp[,1:27]) : # 1:27列是基本资料 : # 将每笔资料的门牌合并後用LIST储存 : # 将每笔资料的基本资料用LIST储存 : ed = Sys.time(); : print(ed-st) : print(i) : } : all <- do.call(rbind.data.frame, addreall) : infotmp <- rbind.pages(info) : # 将回圈内的储存的LIST合并，准备输出 : # info这一段我用rbind.data.frame都会跳出错误错误讯息如下 : infoall <- cbind(infotmp[,1],infotmp[,2:27]) : # 这一段不用cbind处理的话，输出的ID那列会出问题。不晓得ID那列的格式是否不同 : write.csv(all,"address.csv",row.names=F,quote=F) : write.csv(infoall,"info.csv",row.names=F,quote=F) : # 输出CSV档案 : ed1 = Sys.time(); : print(ed1-st1) : ---------------------------------- : rbind.data.frame的错误讯息 : Error in `row.names<-.data.frame`(`*tmp*`, value = value) : : duplicate 'row.names' are not allowed : In addition: Warning message: : non-unique values when setting 'row.names': ...... : [环境叙述]: : R version 3.3.0 (2016-05-03) : Platform: x86_64-w64-mingw32/x64 (64-bit) : Running under: Windows >= 8 x64 (build 9200) : locale: : [1] LC_COLLATE=Chinese (Traditional)_Hong Kong SAR.950 : [2] LC_CTYPE=Chinese (Traditional)_Hong Kong SAR.950 : [3] LC_MONETARY=Chinese (Traditional)_Hong Kong SAR.950 : [4] LC_NUMERIC=C : [5] LC_TIME=Chinese (Traditional)_Hong Kong SAR.950 : attached base packages: : [1] stats graphics grDevices utils datasets methods base : loaded via a namespace (and not attached): : [1] tools_3.3.0 : [关键字]: : rbind, rbind.data.frame, data.table, do.call, lapply 好读版：http://pastebin.com/x01dmuPT 我只帮你解决了performance的问题，用parallel这个套件做平行 rbind.pages的问题就看谁有空再回你了~~ library(httr) library(parallel) queryUrl <- "http://building-apply.publicwork.ntpc.gov.tw/opendata/OpenDataSearchUrl.do" query <- list(d = "OPENDATA", c= "BUILDLIC", "门牌.行政区" = "板桥区") # luancher several Rscript cl <- makeCluster(detectCores()) # export variables to Rscript clusterExport(cl, c("query", "queryUrl")) # import library in each Rscript invisible(clusterEvalQ(cl, library(httr))) invisible(clusterEvalQ(cl, library(jsonlite))) st <- proc.time() # GET JSON file parallely dataList <- parLapplyLB(cl, seq(1, by = 100, length.out = 100), function(i){ # 取得 JSON jsonFile <- content(GET(queryUrl, user_agent("R"), query = c(query, Start = i)), "text") # parse JSON tmp <- fromJSON(jsonFile)$data # 取得id id <- tmp[["_id"]][["$oid"]] # 取得address这个data.frame并加上id address <- do.call(rbind, mapply(function(x, y) cbind(id = x, y), id, tmp[["门牌"]], SIMPLIFY = FALSE)) # 取得其他栏位资讯，并取得id info <- cbind(id = id, tmp[ , 2:26]) return(list(address, info)) }) proc.time() - st stopCluster(cl) # user system elapsed # 0.06 0.00 94.97 # method 1: 直接用lapply + do.call + rbind去处理 st <- proc.time() addressAll <- do.call(rbind, lapply(dataList, `[[`, 1)) infoAll <- do.call(rbind, lapply(dataList, `[[`, 2)) write.csv(addressAll, "address.csv", row.names = FALSE, quote = FALSE) write.csv(infoAll, "info.csv", row.names = FALSE, quote = FALSE) proc.time() - st # user system elapsed # 0.52 0.03 0.54 # method 2: 使用purrr的transpose，不过purrr的dep超多，安装起来满麻烦的 library(purrr) st <- proc.time() datas <- lapply(transpose(dataList), function(x) do.call(rbind, x)) write.csv(datas[[1]], "address.csv", row.names = F, quote = FALSE) write.csv(datas[[2]], "info.csv", row.names = F, quote = FALSE) proc.time() - st # user system elapsed # 0.50 0.01 0.51 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.232.189.71 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1487443941.A.A93.html ※ 编辑: celestialgod (36.232.189.71), 02/19/2017 02:58:32

1^F：推 ginseng21: 太感谢了，原来可以这样写！ 02/19 10:09

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

Re: [问题] 读取JSON 整理表格後输出成CSV

热门看板

赞助商连结