作者snakei14702 (sun抓奶廷已经gg了怎麽뼺)
看板Python
标题[问题] beautifulsoup爬虫问题
时间Fri Jan 3 05:51:32 2020
小弟写了一段程式码爬虫
不过很怪
这个网站有部分爬得出来
(
https://histock.tw/stock/mainprofit.aspx?no=00632R&from=20181102&to=20181102)
有部分爬不出来
像是我要找这个网站的'table'
https://i.imgur.com/eqSE67i.jpg
写了以下程式码确找不到:
import requests
from bs4 import BeautifulSoup
source = requests.get('
https://histock.tw/stock/mainprofit.aspx?no=00632R&from
=20181102&to=20181102', verify= False)ꀊ
soup = BeautifulSoup(source.text, ["lxml-xml"])
table = soup.find('table')
print(table)
可是有的tag找的到
我去读soup用肉眼搜寻
里面还真的没有table这个tag
不知道是我用的方法不对还是怎样
麻烦版上强者帮忙解惑了
谢谢!!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.137.84.179 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1578001896.A.141.html
1F:推 TuCH: 应该是动态网页 01/03 10:04
2F:推 penut85420: .aspx网页应该是动态生成网页内容 01/03 12:43
3F:→ penut85420: 可以试试看用selenium套件去爬内容再套bs4 01/03 12:43
4F:→ snakei14702: 谢谢两位我晚上试试感谢 01/03 15:21
5F:推 f496328mm: bs4 会有读不到的问题,我之前也用bs4 01/04 23:32
6F:→ f496328mm: 後来改用 lxml 01/04 23:33
7F:→ TakiDog: lxml速度快的多,用selenium下下下策,看一下封包用requ 01/05 02:53
8F:→ TakiDog: ests吧 01/05 02:53
9F:推 poototo: selenium把浏览器视窗及载图关掉 01/05 08:21