作者snakei14702 (sun)
看板Python
标题[问题] 爬虫爬不到资料
时间Fri May 3 17:30:17 2019
我写了一小段程式码如下, 分别想抓两个财金网站的资料:
from bs4 import BeautifulSoup
from urllib.request import urlopen
html11=urlopen('
https://www.bloomberg.com/quote/INDU:IND')
soup=BeautifulSoup(html11,'html.parser')
print(soup.find_all('div'))
html22=urlopen('
https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl')
soup=BeautifulSoup(html22,'html.parser')
print(soup.find_all('div'))
htm111 是bloomberg的报价网站,很怪的事我在chrome里面看原始码明明就有很多'div'
的标签, 但是实作跑完只有如下:
[<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>]
html22是cnbc的报价网站, 就没有这个问题, 稍微过滤一下就找到我要的资料了.
想要向各位前辈请教解决这个小问题....
非常感谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.111.116
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1556875821.A.C08.html
1F:→ tlaceruse: Bloomberg 很早开始就挡爬虫了。Header request 要多 05/03 18:03
2F:→ tlaceruse: 试几个参数 05/03 18:03