作者lovedmagic (EricZou)
看板R_Language
标题[问题] html网路爬虫,网页无法跑出资料
时间Sat Dec 3 16:39:07 2016
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
我想将某个网页的资料读取後分析资料,但是一开始就卡关
[程式范例]:
library(XML)
library(RCurl)
ur1=getURL("
https://www.kickstarter.com/discover/advanced?woe_id=23424900&sort=magic&seed=2467921&page=2")
ur1.1 = readHTMLTable(ur1)
test_doc = htmlParse(ur1,encoding="big5")
test = readHTMLTable(test_doc)
View(test)
我一开始是直接使用ur1="网址",後来在板上发现有另外一个方法就是getURL("网址")
,之後用readHTMLTable(ur1)去做,但是我不了解htmlParse不知道有什麽作用,我在
板上也看到许多econding写成"big5"和"UT-8"(←这是印象),好像会发生编码还是转
码上的问题导致之後R的操作中文部分都会变成乱码,最後用View(test)去跑发生了
Error in View(test) : invalid 'x' argument 的问题
我想请问各位大大,关於kickstart我想取用里面每一个project就是每一个分页理面
的backers和pledge of MX$ goal还有days to go三项数字,但是我光是读取页面就已
经发生问题了,请问我在readHTMLTable这方面究竟出现什麽样的问题呢?
[环境叙述]:
Windows 7
R 3.2.2
[关键字]:
网路爬虫、html
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.47.34.42
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1480754351.A.5E3.html
1F:→ celestialgod: 请爱用rvest跟xml2 12/03 16:59
2F:→ lovedmagic: cel大你好,因为我这次也是帮朋友代问,他说他跑之前 12/03 17:03
3F:→ lovedmagic: 那个html_table会出现乱码,是因为没有下载某个 12/03 17:04
4F:→ lovedmagic: package吗?? 12/03 17:04
5F:推 celestialgod: windows都要跑Sys.setlocale("LC_ALL", 'C') 12/03 17:22
6F:→ lovedmagic: 每个步骤都有跑还是会有错误 12/03 17:26
7F:→ celestialgod: 那可能要看网页的encoding 12/03 17:59
8F:推 celestialgod: 我不在电脑前可能不方便查,晚点帮看 12/03 17:59
9F:→ lovedmagic: 非常感谢 12/03 19:23
10F:→ celestialgod: 你这个网址里面看不出来有table阿 12/04 18:42
11F:→ celestialgod: 用html_table抓不到东西就属於正常了 12/04 18:42