作者wheado (自闭哥)
看板R_Language
标题[问题] 新手爬虫post cookie问题
时间Mon Mar 21 15:10:10 2016
问题是这样子,前阵子套件httr似乎有经过一些改变,
似乎采用了比较新的套件xml2里面的函数,
因此,再爬取PTT八卦版文章出现了错误,
无法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply来抓取八卦板index跟里面的文章内容。
所以想从RCurl套件中做一个Post的动作,
从网路上看高手用Python可以很轻松的就解决,
可是自己GOOGLE却找不到用R解决的办法QQ
不懂cookie这种东西是如何运作?
要如何用R让他运作?
一些关键字: RCurl cookiefile cookiejar postForm
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 134.208.23.155
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1458544213.A.B30.html
1F:→ celestialgod: 我用GET + set_cookie一样可以抓阿@@ 03/21 15:30
2F:→ celestialgod: x是GET下来的物件,要文字就用content(x, "text") 03/21 15:39
3F:→ celestialgod: 配xml2的话就用下面的指令 03/21 15:39
4F:→ celestialgod: xml_find_all(content(x), 03/21 15:40
5F:→ celestialgod: "//div[@id='main-content']") 03/21 15:40
6F:→ celestialgod: 再%>% xml_text就可以抓整篇文章下来了 03/21 15:42
7F:→ celestialgod: windows再搭配stri_conv转成big5 03/21 15:42
9F:→ celestialgod: 如果是要用XML就把content(x, "text")丢到htmlParse 03/21 15:45
10F:→ wheado: 太神啦 我等等来试试看!! 谢谢大大 03/21 16:11
11F:→ wheado: 我弄这个弄到好几天都睡不好 QQ 03/21 16:11