作者hirdaramani (Hirdaramani)
看板R_Language
标题[问题] 爬虫请教
时间Mon Jan 9 19:52:15 2017
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
新手
[问题叙述]:
想爬网页上的净值部分
[程式范例]:
主要是我透过SelectorGadget 去读网页里面的html
但是无法成功,想请教各位先进是哪里要调整。
library(rvest)
library(dplyr)
fburl <- "https://goo.gl/P6bNVs"
out <- read_html(fburl) %>% html_nodes(".FsitScriptTableTd:nth-child(4)") %>%
html_text()
http://imgur.com/a/ETYKQ
另外一个网址是透过证交所网页,但是也是一样的问题
tseurl <- "
http://mis.twse.com.tw/stock/etf_nav.jsp?ex=tse"
out <- read_html(fburl) %>%html_nodes("
td:nth-child(5)") %>% html_text()
out
http://imgur.com/a/YWImj
虽然很粗浅但是我还是有些疑问~
用这套去爬一些简单的网页都还过得去
虽然目前遇到中文仍有乱码问题,但是爬数字的话中文可以先暂且抛弃~
若先进愿意教学编码问题也非常感谢
不好意思麻烦大家
[环境叙述]:
请提供 sessionInfo() 的输出结果,
里面含有所有你使用的作业系统、R 的版本和套件版本资讯,
让版友更容易找出错误
> sessionInfo()
R version 3.3.1 (2016-06-21)
Platform: i386-w64-mingw32/i386 (32-bit)
Running under: Windows 7 (build 7601) Service Pack 1
[关键字]:
rvest 爬虫
选择性,也许未来有用
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.160.95.184
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1483962738.A.506.html
1F:→ obarisk: 这用ajax,直接拿那页没用 01/10 06:58
2F:→ hirdaramani: 我先用Ajax rvest当关键字找寻看看 谢谢 01/10 08:46
3F:→ obarisk: 和rvest 无关,要用ajax 的uri 01/10 12:31
4F:→ obarisk: mis.twse.com.tw/stock/data/all_etf.txt 01/10 12:33
5F:→ obarisk: 要想办法拿到正确的cookie 01/10 12:33