作者Supershero (拉拉)
看板Python
标题[问题] 大量爬虫的问题
时间Fri May 21 05:41:11 2021
有一个需要大量爬虫的project
目标是一个新闻网的所有新闻
假设主网址是
https://abc.com
我要爬的是
https://abc.com/articles/202105200001.html
时间从2000年到今年
每一天都会有编号1到9999
但实际上可能只有一千篇是有内容的
目前是用tor来慢慢一篇一篇爬避免被锁
但要整个网站爬完可以要耗费非常久的时间
在寻找更快的方法的时候看到一些所谓的「扒站软件」
似乎是可以把整个网站下载下来
不知道有没有人用过
针对这样的例子是可行的吗?
还是能请问有没有其他方法可以更快的爬虫?
(有试过multi threading,但稳定的proxies 不够, project也不给经费买QQ)
感谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 107.77.165.61 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1621546875.A.7CB.html
1F:→ x94fujo6: 假设像google搜寻结果有分页... 05/21 10:26
2F:→ x94fujo6: 把每一页的结果里符合的网址存起来 索引完之後再抓 05/21 10:27
3F:推 atrisk: 试着把程式移植到scrapy框架上跑跑看,不清楚会回不会被锁 05/21 20:19