作者nini200 (200妮妮)
看板Python
标题[问题] python长时间不定期运行如何记录执行位置
时间Wed Feb 27 04:28:49 2019
python长时间不定期运行 如何记录执行位置
举例:
目前我用字典档关键字逐次google搜寻
将结果提取域名储存
但问题关键字有20多万笔
我目前方式是 将有执行过的关键字另外存档
每次停止脚本时 再去删除关键字已执行的
一直重复 觉得很麻烦
想爬虫也是会遇到这样问题 都要纪录爬到哪里 重新设定页数
有没有什麽通用的方式可以解决呢?
最理想希望 我只需要按执行和停止 直到全部运行完毕
麻烦给些思路 感谢各位
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.33.71.129
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1551212931.A.8B5.html
1F:→ BZnoo: list本身就是个queue,需要的只是pivot 02/27 04:46
2F:推 shala: 结束时记录下一个关键字,下次再开就会从它开始 02/27 17:09
记了关键字 可是字典档没删资料 开启字典档时 如何知从哪开始?
3F:→ nini200: 好 谢谢分享 我再去爬文 02/27 17:11
※ 编辑: nini200 (49.217.172.251), 02/27/2019 17:21:16
4F:推 shala: 记录了关键字就可以用关键字查字典 02/27 17:30
你是指程序中记吗 还是另一个档案 一般我程序都不会跑完 有二十几万笔
5F:推 lemon651: 字典档A不是被你搜寻过就删掉了吗?下次开始执行不就不 02/28 15:55
6F:→ lemon651: 会重复了? 02/28 15:55
7F:推 lemon651: 还是你是手动删除阿?用python写一个function负责删查过 02/28 15:58
8F:→ lemon651: 的不就行了吗 02/28 15:58
9F:→ lemon651: 上面提到纪录下一个关键字 你随便存在一个档里 下次打开 02/28 15:59
10F:→ lemon651: 直到搜到那个关键字再开始也行 02/28 15:59
我目前就是这样用啊 手动删除 只是很麻烦就是了 字典26万笔 一次大概跑二三百
之前想写每跑一个关键字 就删一个 但是我没比较好的方法去写
你说的方法应该可行 我来试试就A档字典 B档已运行关键字
※ 编辑: nini200 (117.19.236.50), 03/02/2019 07:42:20