作者xyz6206a (xyz6206a)
看板R_Language
标题[问题] 新手R爬虫问题
时间Wed Mar 16 21:15:11 2016
各位R前辈大家好! 我最近开始练习用R写爬虫(也是第一次写爬虫)
因为本身经验不足一直卡卡的~~
我想要爬以下这个网站
https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva
我想要爬里面的新闻资料,但我不清楚开怎麽设XPATH
网站新闻图给各位做参考
http://imgur.com/L3Yg4Xe
所以我试着用/html/body
结果爬不出东西。
我再附上我自己写的一小段给大家点评,希望大家
能指出我有什麽地方错误,谢谢。
library(XML)
>
res=GET(url="
https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985")
> xml=htmlParse(res,encoding="UTF-8")
> xpath="/html/body"
> text=xml[xpath]
> print(text)
[[1]]
<body class="">
<script type="text/javascript">
<![CDATA[
<!--
document.location = '//global.factiva.com/';
// -->
]]>
</script>
</body>
attr(,"class")
[1] "XMLNodeSet"
结果爬不出东西来~~~~
第一次在这边发文,请大家多多指教!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.4.209
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1458134116.A.6B0.html
1F:推 JackBaska: 用chrome吗 ?infoLite跟selectorGadget都可以拿xpath 03/16 23:08
2F:推 psinqoo: rvest 包 03/17 08:40
3F:→ xyz6206a: 目前还遇到一个困难 那个资料库竟然要登入QQ 03/17 22:50
4F:推 JackBaska: google: session 然後开始查cookie资讯 03/18 00:16
5F:→ JackBaska: 如果要抓的资料不介意速度的话可以改用python的模拟 03/18 00:17
6F:→ JackBaska: selenium, R有没有类似套件我还不确定 03/18 00:18
7F:→ celestialgod: r有rSelenium 03/18 00:41
8F:→ celestialgod: RSelenium 03/18 00:41
9F:→ sulaxd: 透过RSelenium可以解决登入问题 03/19 13:18