作者bluecadence (by any other name)
看板R_Language
标题Re: [问题] 网页爬虫xpath设定问题
时间Sat Apr 8 11:22:10 2017
用第一页当例子:
url <- "
https://www.zalora.com.tw/_c/rpc?&req=%7B%22method%22%3A%22Costa.List
CatalogProducts%22%2C%22params%22%3A%5B%7B%22category_id%22%3A%5B%224%
22%5D%2C%22limit%22%3A99%2C%22offset%22%3A0%2C%22segment%22%3A%22women%
22%2C%22dir%22%3A%22desc%22%2C%22sort%22%3A%22popularity%22%2C%22catalo
g_type%22%3A%22%22%2C%22url_key%22%3A%22%2Fwomen%2Fshoes%22%7D%5D%7D&
lang=zh"
library(jsonlite)
x <- fromJSON(url,flatten=T)
东西都在 x 里,就自己清理一下罗
※ 引述《hslmax (越前)》之铭言:
: 程式谘询:我想用R来网页爬虫,将购物网站的商品和价格给下载下来。
: 但是,以下这个网站的结构对新手的我来说怎麽try都失败,想请教各位~
: 谢谢!
: [软体熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 指定xpath收集商品的名称及价格,但是笔者的能力无法正确指定xpath的路径
: [程式范例]:
: #Target webpage
: base_url <- "https://www.zalora.com.tw"
: url <- "https://www.zalora.com.tw/women/shoes/?category_id=4&Page="
: ix <- seq(1,5,1)
: df.product.info <- data.frame()
: for (i in ix) {
: t_url <- paste0(url, i)
: doc <- read_html(t_url, encoding = "UTF-8")
: xpath <- '//div[@class="b-catalogList__itm js-catalogList__itm hasOverlay
: unit size1of3"]'
: product.brand <- xml_text(xml_find_all(doc, xpath))
: ......}
: 测试结果:0 obs of 1 variable.
: [环境叙述]:
: 请提供 sessionInfo() 的输出结果,
: macOS 10.12.4、R3.3.2
: [关键字]:xpath
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 104.155.222.243
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1491621735.A.9B7.html