作者oldjojotenya (旧舅舅)
看板R_Language
标题[问题] 丢入htmlParse的东西
时间Fri Jan 30 21:39:06 2015
[问题类型]:
程式谘询
[软体熟悉度]:
使用者
[问题叙述]:
最近在学习网路爬虫,看到网路上喂给htmlParse的内容的写法不太一样,
本人对於HTTP的基础薄弱,有点不得其门而入的感觉,
想请教以下写法的异同与使用时机的差别,谢谢!
1.
url<-"
http://xxx.html"
content<-htmlParse(url)
2.(有时候1.不顺利的时候带2.的式子就成功了不知道为何)
url<-getURL("
http://xxx.html")
content<-htmlParse(url)
3.(个人猜测以下这种写法只能存取本地file?)
url<-"
http://xxx.html"
f<-file(url)
f_size<-file.info(url)$size
content<-readChar(f,f_size)
close(f)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 112.105.245.56
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1422625148.A.FB7.html
1F:→ Wush978: 我没有特别研究过curl这类网路工具。如果你可以提供网址 01/30 22:24
2F:→ Wush978: 我可能比较容易了解。(目前我是猜可能和http 转址有关) 01/30 22:25
3F:推 kenshin528: 没用过第一种写法@@ 01/31 02:04
4F:→ gsuper: 我都直接 strsplit(x,'<tr>') 硬干 01/31 03:45
5F:→ carl090105: 虽然可能跟内文没什麽关系;不过推荐一下rvest这个套 01/31 12:58
6F:→ carl090105: 件 01/31 12:58
7F:→ oldjojotenya: 谢谢各位大大! 01/31 13:48