作者grimmq427532 (Legend)
看板R_Language
标题[问题] R爬虫抓html的问题
时间Wed Jul 13 10:28:38 2016
[问题类型]:
程式谘询
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
昨天开始研究使用R爬虫,从 celestialgod 大大的code开始起头
范例中大大抓的是BG版的文章内容,而我是想要抓八卦版的文章标题就好
但发现paste完网址、read_html抓code之後
再使用xml_find_all去抓title会有问题,其值为空 ( 显示{xml_nodeset(0)} )
往回追read_html,怀疑是不是html码抓漏了,并没有抓到title等项
因为开原网站的html来看,在body的部分似乎和抓到的有出入
不知道是不是这样?还是其他地方有问题?
因为对html不熟悉,如果理解有误请见谅
[程式范例]
为了研究先只抓15220这一页
paste(15220, '.html', sep='') %>%
paste('
https://webptt.com/cn.aspx?n=bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[环境叙述]:
R version : 3.3.1
[关键字]:
crawl
xml2
read_html
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.240.101.43
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1468376923.A.D0A.html
※ 编辑: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13
1F:推 clansoda: 你没有通过18检验那一关 07/13 13:39
2F:→ clansoda: 版上搜寻批踢踢可以找到解决方法 07/13 13:40
有看过这个部分,但现在输入网址透过浏览器好像不会做18检验,
而使用read_html要吗?
先研究看看,感谢!
3F:推 clansoda: 我输入的时候要,你这个问题我也碰过把cookie那边 07/13 14:35
4F:→ clansoda: 加上一点代码就可以过关了。 07/13 14:35
已经解决,感谢!
浏览器不会出现是因为cookie记录下来了,我太蠢了...
开无痕式就会出现over18的验证
所以透过rvest纪录cookie就OK了,参考
https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd
※ 编辑: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35