作者chaotic0307 (坚持、耐心、努力学习)
看板Python
标题Re: [问题] 请问想查询高铁时刻表的问题
时间Thu Mar 28 12:51:09 2019
※ 引述《chaotic0307 (坚持、耐心、努力学习)》之铭言:
: 自己的文章自己回~
: 不知道去年高铁网站是不是有改过,一些书上的方法好像都失效了
: 透过chrome的开发者工具,可以在XHR底下找到回传的data
: 自己做功课的了解是这应该是动态网页,资料格式应该是json(?
: 试过一些方法还是抓不到(跟cookies or session有关吗?
: 在Response Headers 当中显示 Cache-Control: private, max-age=5
: 没有Allow,是不是代表无法抓取?
: 但在网页按右键->检查->copy element贴到记事本是有看到的
: 跪求高手解惑~
感谢推文的大大们,有API真的是方便许多
最近比较熟悉爬虫後,终於解决先前的问题,顺利得到回应的json资料
先前主要应该是网址错误跟没用session
url = '
http://www.thsrc.com.tw/tw/TimeTable/SearchResult'
改成
url = '
http://www.thsrc.com.tw/tw/TimeTable/Search'
header跟form_data部分就是看开发者工具里面的内容全贴进去
以下几行就搞定
rs = requests.session()
res = rs.post(url, headers=headers, data=form_data)
jsdata = res.json()
这样就可以顺利取得json资料
在爬虫的路上又迈进一小步了XD 感谢大家!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.226.169.33
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1553748672.A.20F.html
1F:推 alen84204: 推後续更新 03/28 16:06
2F:推 jasonfghx: WOW 03/28 18:26
3F:推 nini200: 推 03/29 18:38
4F:推 ofspring: 强!自己也卡在这个问题,不知大大有无github可以提供程 03/29 23:38
5F:→ ofspring: 式码让小弟学习 03/29 23:38
7F:→ chaotic0307: 第一次用github,不知道对不对XD 有问题再说 04/01 14:21