作者hslmax (越前)
看板R_Language
标题[问题] 网页爬虫xpath设定问题
时间Sat Apr 8 03:02:48 2017
程式谘询:我想用R来网页爬虫,将购物网站的商品和价格给下载下来。
但是,以下这个网站的结构对新手的我来说怎麽try都失败,想请教各位~
谢谢!
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
指定xpath收集商品的名称及价格,但是笔者的能力无法正确指定xpath的路径
[程式范例]:
#Target webpage
base_url <- "
https://www.zalora.com.tw"
url <- "
https://www.zalora.com.tw/women/shoes/?category_id=4&Page="
ix <- seq(1,5,1)
df.product.info <- data.frame()
for (i in ix) {
t_url <- paste0(url, i)
doc <- read_html(t_url, encoding = "UTF-8")
xpath <- '//div[@class="b-catalogList__itm js-catalogList__itm hasOverlay
unit size1of3"]'
product.brand <- xml_text(xml_find_all(doc, xpath))
......}
测试结果:0 obs of 1 variable.
[环境叙述]:
请提供 sessionInfo() 的输出结果,
macOS 10.12.4、R3.3.2
[关键字]:xpath
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.26.45.116
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1491591771.A.C81.html
1F:推 bluecadence: 如果你有开browser的检视元素看,你要抓的是传回来的 04/08 10:06
2F:→ bluecadence: json格式资料 04/08 10:07
3F:→ bluecadence: 要抓的 url 也不是你贴的网址 04/08 10:08
5F:→ bluecadence: 你开browser检视元素就知道了 04/08 10:12