作者chaotic0307 (坚持、耐心、努力学习)
看板Python
标题[问题] 请问想查询高铁时刻表的问题
时间Mon Jan 28 19:59:29 2019
各位先进好,小弟刚自学python没多久,最近在练习一个高铁时刻表的爬虫却
一直卡关,不知道问题出在哪,用的是python3.6版
程式码如下:
import requests
from bs4 import BeautifulSoup
url = '
http://www.thsrc.com.tw/tw/TimeTable/SearchResult'
form_data = {
'StartStation':'977abb69-413a-4ccf-a109-0272c24fd490',
'EndStation':'9c5ac6ca-ec89-48f8-aab0-41b738cb1814',
'DepartueSearchDate':'2019/01/30',
'DepartueSearchTime':'09:30',
'SearchWay':'DepartureInMandarin'
}
#原例子是用SearchDate,但在高铁网页按F12看到是DepartueSearchDate,不知有错吗?
response_post = requests.post(url, data=form_data)
soup_post = BeautifulSoup(response_post.text, 'lxml')
soup_post
原本要用下面的方式来记录般车,但是用美丽汤解析後发现class里面根本没有column1
不知道问题出在哪?
# 所有班车(train_number)
td_col1 = soup_post.find_all('td', {'class':'column1'})
train_numbers = []
for tag in td_col1:
# print(tag)
train_number = tag.text
train_numbers.append(train_number)
有尝试加header或是用urllib的方式,但好像都查询不到
跪求高手解惑~谢谢!
原例:
https://github.com/music1353/pyHowFun/blob/master/LESSON4%20%E7%88%AC%E8%9F%B
2%E5%AF%A6%E6%88%B0%20-%20%E9%AB%98%E9%90%B5%E6%99%82%E5%88%BB.ipynb
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.42.252
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1548676772.A.061.html
※ 编辑: chaotic0307 (118.169.42.252), 01/28/2019 20:00:38
1F:推 jasonfghx: WOW 01/29 12:03
3F:→ chaotic0307: 抱歉不懂楼上大大的意思,点开里面的也发现无法执行 02/03 01:04
4F:推 nini200: 我header全加 也不能爬 知道怎麽解决再分享一下 02/03 13:19