作者loser113 (洨大鲁蛇ㄍ)
看板Python
标题[问题] 爬虫突然挂掉
时间Thu Feb 4 09:30:07 2021
工具:
python 3.8
selenium
webdriver.Chrome()
情况:
开多个 console 爬同个网站不同页面
今天早上看发现有些挂掉 几乎都是同个时间 但有些还是继续爬
程式码都依样 页面不同
错误地方都不太一样
driver.refresh() 比较多
错误原因
NoSuchWindowException: no such window: window was already closed
(Session info: chrome=87.0.4280.141)
尝试输入指令
driver
Out[23]: <selenium.webdriver.chrome.webdriver.WebDriver
(session="98fcf588b7cc41cca659c46b9e35424b")>
driver.window_handles
Out[26]: []
driver.page_source
NoSuchWindowException: no such window: target window already closed
from unknown error: web view not found
(Session info: chrome=87.0.4280.141)
找不到头绪怎麽解
打 driver 仍然有讯信
但是执行一些动作就错误
因为有些其他程式还在执行 没有中断
想问看有没有写法可以避免
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.230.244.130 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1612402209.A.68E.html
1F:推 stillcolor: 是不是因为fail就关闭browser啦?资讯有点少欸~ 02/04 10:08
2F:→ loser113: Chrome 跟页面都在 02/04 10:28
3F:→ loser113: 页面是空白 02/04 10:28
4F:推 taipoo: 你是不是触发网页的反爬虫机制,且你爬的是什麽网页呢? 02/04 12:00
5F:→ vi000246: 我猜是楼上讲的吧 过一天再试试看 02/04 13:24
6F:推 stillcolor: 页面都空白的话,应该不是selenium的问题吧 02/04 14:21
7F:→ stillcolor: 直觉也是4F讲的那样 02/04 14:21
8F:→ liton: 找个免费的爬虫软体批量爬看看会不会被挡 02/04 14:26
9F:→ loser113: 反爬就不得而知 像 google 还有要你选图 02/04 14:46
10F:→ loser113: 因为同个网站 前一个月没有这种问题 这个月多放个几个 02/04 14:48
11F:→ loser113: 帐号去爬 目前找到解法是多写个sleep在动作 02/04 14:48
12F:→ liton: 网站三不五时改个页面就能搞死你了 02/04 16:42
13F:→ koshi0413: 你一次多只爬同一个网页,是不是IP被侦测到 02/04 21:04
14F:推 fiorentino: 有可能你爬的那个网页内容就是不存在 02/04 21:53
15F:→ fiorentino: 你打开浏览器直接贴上那个网址就知道是不是这个原因 02/04 21:53
17F:→ chickengod: 有人提到可能是网页开了新视窗 然後关了原本的 02/05 02:30
18F:→ chickengod: 导致handle指向一个已经关闭的视窗 02/05 02:30
19F:→ chickengod: 解法有可能是这个 02/05 02:30
21F:→ chickengod: 指向一个新的视窗 忽略以下exception 02/05 02:30
22F:→ chickengod: NoSuchWindowException, NoSuchElementException 02/05 02:30
今天没有异状
我情况是 一个console 对应一个driver 执行程式 没有关闭网页指令
有关闭行为 就是点里面的连结 跑出弹跳视窗 用 find xpath 去把弹出来的视窗关闭
因为我理解是 某种原因 切断 网页跟程式的连结 因为网页还在 但变成空白画面
程式变成找不到那页 比较像是网页当掉 那就应该是 对方网站 OR CHROME 问题
内容我在研究一下 感谢
23F:推 taipoo: 楼上说得也很有可能会发生的 02/05 04:36
※ 编辑: loser113 (36.230.244.130 台湾), 02/05/2021 09:25:11
※ 编辑: loser113 (36.230.244.130 台湾), 02/05/2021 09:27:27
24F:推 stillcolor: 话说你空白网页,有带入url吗? 02/05 14:25
25F:→ loser113: 有 就是要爬的那页网址 02/05 14:46
26F:推 stillcolor: 会不会是browser memory leak就被砍掉了?我好像碰过 02/05 16:53