作者e23882 (呆呆要不要买降有)
看板Python
标题[问题] 爬虫header问题
时间Fri Aug 28 19:52:12 2020
各位哥大家好,最近开发爬虫的时候遇到了一些问题想请教一下爬虫高手们
我在做一个自己用的工具可以模拟使用者的动作,产生python送请求的script
主要是透过Chrome的开发者工具,把使用者操作时执行的请求跟结果汇出.har档,
har档里面会用json格式记录每一个送出的请求跟相关的资讯
我遇到的问题是在其中一个请求里面的header
他在har档案里面的Content-Length是40
```
"name": "Content-Length",
"value": "40"
```
https://imgur.com/a/EmdSkxU
但是我执行的时候他会一直卡在request.post()那边
所以我後来才加上timeout参数让他断线
後来试了一下发现如果把 Content-Length 值改成0他就可以正常送出请求
我好奇的是为什麽一样的header
在Chrome操作的时候可以正常执行,但到程式里面就不正常了
是网站有什麽特别的机制让他侦测到我python的连线是有问题的连线吗
附上那个有问题的Request相关资料
https://reurl.cc/Oq0QQy
如果真的是网站牛逼,各位爬虫大师在面对类似这种问题的时候是怎麽样去排除的
因为我今天是HEADER一个一个试,刚好遇到只要改一个栏位就可以正常执行的情况
如果他可能是HEADER中N个栏位都要做这种事的话可能就会花很多时间
再麻烦了,感谢
--
1F:嘘 timhk108: 雨八07/15 22:00
2F:嘘 victoryss: 田ㄙ07/15 22:03
3F:嘘 timhk108:...什麽雷公!再给你一次机会 雨八07/15 22:14
4F:嘘 mcsam: 云木07/15 22:30
5F:推 timhk108:什麽云朵!!最後一次! 雨八07/15 22:32
6F:嘘 victoryss: 云ㄙ07/15 22:34
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.75.101.50 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1598615537.A.54E.html
※ 编辑: e23882 (211.75.101.50 台湾), 08/28/2020 20:00:28
7F:→ TakiDog: 不用带长度,requests会自己算跟带 08/28 20:16