作者nini200 (200妮妮)
看板Python
標題[問題] python長時間不定期運行如何記錄執行位置
時間Wed Feb 27 04:28:49 2019
python長時間不定期運行 如何記錄執行位置
舉例:
目前我用字典檔關鍵字逐次google搜尋
將結果提取域名儲存
但問題關鍵字有20多萬筆
我目前方式是 將有執行過的關鍵字另外存檔
每次停止腳本時 再去刪除關鍵字已執行的
一直重複 覺得很麻煩
想爬蟲也是會遇到這樣問題 都要紀錄爬到哪裡 重新設定頁數
有沒有什麼通用的方式可以解決呢?
最理想希望 我只需要按執行和停止 直到全部運行完畢
麻煩給些思路 感謝各位
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.33.71.129
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1551212931.A.8B5.html
1F:→ BZnoo: list本身就是個queue,需要的只是pivot 02/27 04:46
2F:推 shala: 結束時記錄下一個關鍵字,下次再開就會從它開始 02/27 17:09
記了關鍵字 可是字典檔沒刪資料 開啟字典檔時 如何知從哪開始?
3F:→ nini200: 好 謝謝分享 我再去爬文 02/27 17:11
※ 編輯: nini200 (49.217.172.251), 02/27/2019 17:21:16
4F:推 shala: 記錄了關鍵字就可以用關鍵字查字典 02/27 17:30
你是指程序中記嗎 還是另一個檔案 一般我程序都不會跑完 有二十幾萬筆
5F:推 lemon651: 字典檔A不是被你搜尋過就刪掉了嗎?下次開始執行不就不 02/28 15:55
6F:→ lemon651: 會重複了? 02/28 15:55
7F:推 lemon651: 還是你是手動刪除阿?用python寫一個function負責刪查過 02/28 15:58
8F:→ lemon651: 的不就行了嗎 02/28 15:58
9F:→ lemon651: 上面提到紀錄下一個關鍵字 你隨便存在一個檔裡 下次打開 02/28 15:59
10F:→ lemon651: 直到搜到那個關鍵字再開始也行 02/28 15:59
我目前就是這樣用啊 手動刪除 只是很麻煩就是了 字典26萬筆 一次大概跑二三百
之前想寫每跑一個關鍵字 就刪一個 但是我沒比較好的方法去寫
你說的方法應該可行 我來試試就A檔字典 B檔已運行關鍵字
※ 編輯: nini200 (117.19.236.50), 03/02/2019 07:42:20