作者clansoda (小笨)
看板R_Language
标题Re: [问题] 抓取PTT网页,请问此程式码的错误在哪?
时间Fri Oct 21 16:44:42 2016
Hi,很遗憾的是你後面那部分我有点看不太懂,但可以提供另外一种方法
来做到你想要做的事情
http://pastebin.com/yEvK1FuG
只有一个小问题,就是他的本文含在一个大TAG里面但是有其他小TAG
我找不到一个很好的方式只抓本文,因此里面会有一些title跟日期的废话
用xml_contents可以只抓到本文,但是它的位置很不固定,只要有例如版主
塞了一些话进去的话,他的位置就会往後,这个只能看看有没有了解结构的人
看看有甚麽好方法解决了
下面是用到的package
library(xml2)
libray(httr)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.172.85.24
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1477039486.A.EB3.html