R_Language 板


LINE

※ 引述《vicror84 (阿汘)》之铭言: : ※ 引述《celestialgod (天)》之铭言: : : 我不知道网页的header跟内文的关系 : : 我看charset是big5,不过我实际读表格的资料,还是要用UTF8 : : 所以我抓content的时候用big5是正常的,再用read_html with encoding utf8 : : 之後再把utf8转回去big5 (windows才要转,mac, linux不用stri_conv那段) : : 之後就可以看到正常的表格内容了 : : library(httr) : : library(pipeR) : : library(xml2) : : library(stringi) : : library(stringr) : : tableContent <- GET("http://depart.femh.org.tw/HMC/wholebody.html") %>>% : : content("text", encoding = "BIG5") %>>% read_html("UTF-8") %>>% : : xml_find_all("//tr/td/table/tbody/tr") %>>% lapply(function(x){ : : output_text <- xml_find_all(x, "td") %>>% xml_text %>>% : : stri_conv(from = "UTF-8", to = "Big5") %>>% str_replace_all("\\s", "") : : if (length(output_text) >= 9 && length(output_text) <= 11) : : { : : return(c(rep("", 12-length(output_text)), output_text)) : : } else if (length(output_text) == 8) : : { : : return(c(output_text[1:4], unlist(rbind(output_text[5:8], rep("", 4))))) : : } else : : { : : return(output_text) : : } : : }) %>>% do.call(what = rbind) : : 结果截图: : : http://i.imgur.com/eDG4uEY.png : : 函数说明可以往前翻我的文章,某一篇(#1N9lFXFI (R_Language))下面有一些说明 : : 不懂再回文发问吧 : : #那串的用法:http://evolutionbrain.blogspot.tw/2015/08/ptt.html : 因为我是新手刚学R,看不太懂 str_replace_all("\\s", "") 这段程式, : 还有, str_replace_all(string, pattern, replacement): http://www.inside-r.org/packages/cran/stringr/docs/str_replace_all 把string中符合pattern的字串置换成replacement的字串 例如:str_replace_all("aa bb cc", "\\s", "") "\\s"是regexp里的空白,""就是零长度的字串,所以置换後就会变成 "aabbcc" %>>% 部分可以参考在板上/magrittr,有一篇简单的教学文,看%>%部分 我这里只有一个地方用到%>>%的特色 (do.call(what = rbind)这里用到而已) : if (length(output_text) >= 9 && length(output_text) <= 11) : { : return(c(rep("", 12-length(output_text)), output_text)) : } else if (length(output_text) == 8) : { : return(c(output_text[1:4], unlist(rbind(output_text[5:8], rep("", 4)))) : } else : { : return(output_text) : } : }) %>>% do.call(what = rbind) : 尤其是那些数字,不太懂他们代表什麽意思,如果逐一注解更好,不方便的话没有关系 数字是因为网页的表格有跨栏位的问题,所以他不见得都会抓满12栏 所以你需要自己手动去补成12栏,我只是做这样的事情而已 因此,才会在你下一篇回答说那个表格处理请参考我下一篇 也就是这个部分,自己抓出每一列之後,做补满或是调整空位的部分 这个可能对R新手比较困难一点,但是没有现成的函数可以直接读跨栏的栏位 如果只会用XML的readHTMLTable,就只会出现都靠左的情况,剩下都补入"" 这个就只能自己慢慢位移了 逐一注解就不做了,这里只是一个概念,你需要自己动手去把table抓下来 看看抓下来的每一列长怎样,然後程式里对应处理为何 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.74.87
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1465201420.A.0D2.html ※ 编辑: celestialgod (140.109.74.87), 06/06/2016 16:26:20
1F:推 vicror84: 谢谢你~~ 这语言真得很难!! 06/07 22:47







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP