作者yoz4ni (yoooooz)
看板Python
标题[问题] 爬虫 Google search
时间Tue Jun 9 11:25:13 2020
请问一下
再拿到 response 後用 tag 去找资料会失败
为什麽我执行的时候很容易失败
https://i.imgur.com/xs0Hu1x.jpg
偶尔会成功
https://i.imgur.com/LF6VOjR.jpg
我 header 放
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
请问有人有遇到过这样的问题吗?
我後来把 cookie 也全部加进去也没效 QQ
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.125.46.7 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1591673115.A.586.html
1F:→ pmove: 失败时,回传的资料是? 06/09 12:22
2F:→ mychiux413: 找看看有没有'recaptcha'的id,有的话就是机器人在挡 06/09 12:30
3F:→ mychiux413: 爬google的所有动作最好是每5秒动一次比较安全 06/09 12:31
4F:→ mychiux413: 如果recaptcha跳出来,可以休息10分钟後再来 06/09 12:32
5F:→ yoz4ni: 回传的资料如果是找 tag 的话是没资料的(空的) 06/09 14:55
6F:→ yoz4ni: 请问是 recaptcha 的话要在哪里才能看的到呢? 06/09 14:56
9F:→ alvinlin: 另Google Custom Search API 也参考 06/09 15:59
10F:→ alvinlin: 有API用API吧。爬东西很累人的 06/09 15:59
11F:→ mychiux413: 会有一个element的id叫做'recaptcha', 可以用bs4找 06/09 16:05
12F:→ alvinlin: 找到recaptcha也没用。破解不了的 06/09 16:22
13F:→ OrzOGC: 一个人硬干是赢不过google那些工程师的 06/09 18:00
14F:→ yoz4ni: 因为我是在练习,所以想说不去用 API 来抓资料看看 06/10 02:24
15F:→ yoz4ni: 还是说这样的练习其实是不需要的OAO 06/10 02:24
16F:→ yoz4ni: 我晚点去把回传资料找看看有没有 id 是 recaptcha 的 06/10 02:26
17F:→ alvinlin: 也不是这样说。因为看你已经正确抓到资料了,所以你的程 06/10 03:13
18F:→ alvinlin: 式没问题。但你如果是要去对付reCaptcha这我试过没找到 06/10 03:13
19F:→ alvinlin: 方法。所以你只能绕道。刚好这个有API那应该试着用其他 06/10 03:13
20F:→ alvinlin: 方法取得资料,而不是和它硬干。 06/10 03:13
22F:→ vi000246: 通常google有api的东西就不要自己爬了 赢不了google工程 06/10 09:07
23F:→ vi000246: 师的 06/10 09:07
24F:→ shadowjohn: 爬的内容你连续多抓几个分页频率一高就被档了 06/10 09:26
25F:推 femlro: 我有时候手动搜寻快一点都被挡了 何况爬虫 06/10 16:26
26F:推 aidansky0989: 只有更新cookies还不够,IP时间等等都要调 06/10 16:35