作者jianingtw (jie)
看板DataScience
标题[问题] 加速Python爬虫速度
时间Sat Jan 6 01:50:41 2024
大家好,我们想要把ISBN上2014到2024的书籍资料全部用爬虫爬出来,可是使用selenium
写出爬虫程式(程式如下附连结,写得有点冗不好意思)後,发现爬每一笔资料都要花大约
8秒钟,这样如果要爬十年资料会爬不完(大约要花1400小时)。 所以想请教有甚麽爬虫爬
得比较快的写法吗? 感谢!
https://drive.google.com/drive/folders/1pMXmZaob-qAh4VTXlcLReCv6W072NHPC?usp=s
haring
目前有使用
https://scrapeops.io/selenium-web-scraping-playbook/python-selenium
disable-image-loading/,让它不要读取图片只读取文字,有快了一些些但还是6秒左右
,用requests写好像也会比较快?但还是想询问有没有更快速的Python爬法,因为我们的
时间不够多,谢谢板上的各位!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.241.164 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1704477043.A.325.html
※ 编辑: jianingtw (114.136.241.164 台湾), 01/06/2024 01:52:02
1F:→ ddavid: 先对每一个步骤印出 log 看时间瓶颈是什麽步骤或动作啊 01/06 02:07
2F:→ ddavid: 确定了瓶颈後,如果那是可以改善的就改,如果那不能改善, 01/06 02:08
3F:→ ddavid: 那就开很多台电脑一起爬 01/06 02:08
4F:→ Hsins: 时间不够多,拿预算来凑;看了一下程式码,觉得楼上说的调 01/08 15:57
5F:→ Hsins: 整对你们来说会有点吃力;瓶颈可以直接说是 selenium 然後 01/08 15:58
6F:→ Hsins: 没有同时间送多个请求啦,看是要自己调整,还是花钱或是找 01/08 15:59
7F:→ Hsins: 朋友帮忙调整,都不行的话就开多台电脑一起爬吧,开个 20台 01/08 16:00
8F:→ Hsins: 大概就三天 01/08 16:00
9F:→ CP64: requests+bs4 应该会快很多 然後不用一页页点 观察一下网址 01/13 00:42
10F:→ CP64: 不过要记得用 session 它参数有部分是用 session 在带的 01/13 00:43