作者tses89214 (幻想天空)
看板R_Language
标题[问题] 网路爬虫相关问题
时间Tue Jun 6 23:39:11 2017
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
各位好,我想要抓取旅游网站上面的金额的资讯,就是橘色的NT$的部分
https://goo.gl/rTUzDp (网址过长所以缩了一下)
但因为没有处理过动态的网站而卡关,
目前进度是使用read_html以及readLines这两个function试过,
发现抓到东西的与看到的网页原始码不一样。
从开发者工具虽然有看到几个.js的项目,
却不太知道该用GET或是POST什麽东西给他们,
所以想问:该用什麽方法才能得到想要的资料呢?
谢谢!
PS.只要能拿到网页的原始码就行了,後面的文字处理我可以自己来。
[关键字]:
网路爬虫
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.119.176.235
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1496763553.A.9C0.html
3F:→ tses89214: 感谢!! 我试试看!! 06/07 00:02
4F:→ tses89214: C大您好,我尝试後发现得到的东西还是不一样,是不是在 06/07 00:22
5F:→ tses89214: 程式上面我有写错呢? 06/07 00:22
7F:→ tses89214: 使用POST似乎导向了不对的网址 06/07 00:26
9F:→ tses89214: 也有试过在原网址後面加上?fp_count=1,结果也是同样 06/07 00:35
10F:→ tses89214: 在GET的部分将fp_count改成=2就可以了(不清楚为什麽 06/07 12:29