作者aidansky0989 (alta)
看板Python
标题[问题] 爬虫资料返回虚假资料
时间Wed Apr 29 22:02:41 2020
最近练习爬资料时,
在爬虾皮发现返回的资料量很少且
爬到100笔左右数据以後会返回虚假
资料。
尝试过消除浏览器cookie:
1.模拟常人访问时间
import time
import random
time. sleep(random.randint(1,9))
2.固定状态更新cookies, 用requests. cookies. get_dict(),观察发现更新後的cookie
跟我定义的cookie字典不同,在想是否有session Id留在虾皮伺服器记录session
import requests
session=requests.session()
params={}
cookie_dict={}
headers={}
session. cookies. update(cookie_dict)
session. get(url,cookies=cookie_dict,
params=params,headers=headers)
3.proxies={"http":"代理ip","https":"代理ip"}
请求头加入proxies=proxies
1,2试过无效,3每次用都404断线,想请问版上高手的建议,谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.217.186.75 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1588168963.A.0CB.html
1F:推 vi000246: 什麽叫虚假资料? 感觉是有限制ip请求上限 04/29 22:48
2F:→ aidansky0989: 遇到的问题是1.预计爬20页资料,实际只爬出2-3页的 04/29 23:30
3F:→ aidansky0989: 资料量2.约第100笔以後的资料是投毒返回,价格返回 04/29 23:30
4F:→ aidansky0989: 乱数,店家地址只返回第一个字,图片网址乱码。前10 04/29 23:30
5F:→ aidansky0989: 0笔搜寻验证过资料数值都正确 04/29 23:30
6F:→ aidansky0989: 过一段时间再爬又可以爬出约100笔正确资料,推测可 04/29 23:36
7F:→ aidansky0989: 能是cookies时效已过被清除。电脑试过改用代理IP, 04/29 23:36
8F:→ aidansky0989: 换过多个代理IP都无法连线 04/29 23:36
9F:→ wsybu: 有试过设定User-Agent? 04/30 14:05
10F:→ aidansky0989: user-agent有设,放在headers 04/30 17:44
11F:推 pandajohn: 帮推一个 我也好奇後续解法 04/30 22:13
12F:推 s860134: 可以给个网址范例让大家试试? 05/01 11:58
13F:→ s860134: cookie 会一直变很正常的,因为 response 有 set-cookie 05/01 12:43
14F:→ s860134: requests 模拟浏览器行为当然会把 cookie 进行更新 05/01 12:44
15F:→ s860134: 如果你是爬搜寻页面,他要求 header "referer" 正确 05/01 13:10