作者GetRobin (Rrr)
看板R_Language
标题[问题] 爬虫相关问题
时间Thu Aug 4 22:27:49 2016
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
目前想抓取求职天眼通各公司的讨论串,
不过碰到问题是进入个别讨论串後,
(例如
https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/
),
使用rvest或RSelenium都抓不到讨论内容,
不知该怎麽处理。
[程式范例]:
library(RSelenium)
remDr <- remoteDriver(remoteServerAddr = "localhost"
, port = 4444
, browserName ="firefox"
)
remDr$open()
remDr$navigate("
https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/"
)
page_source<-remDr$getPageSource()
page_source #
#page_source没讨论内容,去抓html的nodes也就抓不到了
[关键字]:
爬虫
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.240.238.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1470320873.A.5A5.html
1F:→ celestialgod: 求职天眼通应该google 外挂的吧 不在原本的网页上08/04 22:42
我是爬外挂文章的来源(disqus),不是从人力银行页面上的外挂爬
2F:→ andrew43: 你要爬这个 iframe#dsq-app2;html里可以找到它的src。08/05 02:10
3F:→ andrew43: 这种动态地读入iframe的情况,还是直接到该iframe的原始08/05 02:11
4F:→ andrew43: 网页里爬资料会比较稳,只是经验谈。08/05 02:12
喔喔喔 成功了 好厉害谢谢你!
※ 编辑: GetRobin (223.140.143.167), 08/05/2016 09:08:45