作者cloverlover (cloverlover)
看板Python
标题[讨论] 新手请教 爬虫抛出资料比对
时间Thu Feb 11 09:06:37 2021
概念描述 :
定时爬ptt八卦板,收寻特定字符後抛出line讯息
问题:
若定时爬出的资料为相同的,要如何建立确认机制?等到有不同的再抛出。
目前作法是将数据存成list,再抛出
但第二次跑时不知道如何前後资料比对
先谢谢各位指导
补充程式概述:
while True :
def getdata(url):
return 数据
Y = [ ]
Y. append(数据)
Line bot 抛出 Y
我想让抛出的Y有办法做前後比对,有差别後再抛line bot
主要卡在Y再跑第二次时会覆盖第一次就无法比对
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 112.78.78.250 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1613005599.A.CD8.html
1F:推 supremebboy: 搜寻02/11 09:38
2F:→ penut85420: 考虑看看hash02/11 10:23
3F:推 aidansky0989: 用set存,当set长度增加时跳出通知02/11 11:02
4F:推 TitanEric: hash checksum02/11 12:36
※ 编辑: cloverlover (112.78.78.250 台湾), 02/11/2021 13:05:19
※ 编辑: cloverlover (112.78.78.250 台湾), 02/11/2021 13:07:27
5F:推 TitanEric: 用另一个set存之前抓下来的文件checksum 存之前先用i 02/11 17:45
6F:→ TitanEric: n set判断 02/11 17:45
7F:推 vi000246: 我会直接抓编辑纪录的时间 这样最省效能 02/13 17:45