[问题] 是网站改版?还是刻意防爬虫?

时间Mon Aug 16 15:52:23 2021

因为工作的原因，还有暂时资料的撷取需要到书店的网页撷取资料但是在爬了3个月之後，网站突然网址不一样然後request的内容跟开发者工具的HTML不一样但是因为image网站不稳定，那我直接到巴哈求助的内容直接贴上来 https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212 这是爬虫爬到的 requests https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729 完全没有，我所需要如下的价钱，以及装订(peprback) 这是开发者的 HTML https://gist.github.com/cj044/9a889246299bb3562841e647706b438f 如果真的不行，我直接换网站好了我只是要里面的资料，不是要攻击网站还是用AMAZON 或是 ebay的API 直接代替爬虫但是Amazon 网路上没有相关撷取书籍资料至EXCEL的python实作资料，实在很困扰 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.136.229.162 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1629100346.A.40F.html ※ 编辑: mejichoco (101.136.229.162 台湾), 08/16/2021 17:54:27

1^F：→ x94fujo6: https://i.imgur.com/PRL07xa.png 08/16 18:40

https://i.imgur.com/tuGkFVm.jpg 我要的是这个! 非常感谢各位专家热心帮忙，不过专业术语rendar是甚麽? 谢谢! 大大网指标的是 list_name=srh? 但是您怎麽知道list_name=i-r-zh_tw 这样还有可能爬得到吗?

2^F：→ Hsins: 老实说, 是你基础不好, 天珑没这麽难爬 08/16 23:20

3^F：→ Hsins: - 对方网站没有太多的方式判断你是不是要攻击他, 对他来说 08/16 23:21

4^F：→ Hsins: 就是网路请求, 但这个请求如果太多太快, 对他来说可以用 08/16 23:22

5^F：→ Hsins: 这个特徵认为你是要攻击。实际上，售票网站那种抢票状况 08/16 23:22

6^F：→ Hsins: 对网站来说可以算是攻击呀！因为会让我伺服器无法正常处 08/16 23:23

7^F：→ Hsins: 理。你用自动化的方式去拿资料，没有销售行为，对他来说 08/16 23:24

8^F：→ Hsins: 也是种攻击。 08/16 23:24

9^F：→ Hsins: - robots.txt 并不会影响你送请求跟返回的讯息，他是给一 08/16 23:25

10^F：→ Hsins: 　些遵守规范的人／程式看的，有些自动化爬虫程式看到不允 08/16 23:25

11^F：→ Hsins: 就不会去爬他，当然你的爬虫也可以忽略他的声明继续爬， 08/16 23:26

12^F：→ Hsins: 顺带一提，如果对方 robots.txt 言明不想被爬但你还用自 08/16 23:26

13^F：→ Hsins: 化手段获取资料，在某些国家是违法行为会吃官司的。 08/16 23:27

14^F：→ Hsins: - 一楼的推文被你编辑文章删掉了，我想他要说的是你想要的 08/16 23:28

15^F：→ Hsins: 资料，都可以在请求後所拿到的 HTML 原始文件中取得，而 08/16 23:28

16^F：→ Hsins: 这些资料被放在 <header> 元素中 08/16 23:29

既然书店不愿意，那就不浪费时间了!

17^F：→ Kitten1156: 知道有robot.txt 08/17 00:43

18^F：推 Kitten1156: 知道有robot.txt 08/17 00:43

19^F：→ Kitten1156: 但是从来没去认真看他哈 08/17 00:44

20^F：推 poototo: 降低爬速，加proxy 08/17 08:31

还是有没有Amazon Python API的使用sample AMAZON API应该就合法了吧? 但是没有Amazon ISBN的使用手册! ※ 编辑: mejichoco (101.137.209.158 台湾), 08/17/2021 16:36:59

21^F：→ mantour: 我爬出来都很正常耶, 你是怎麽爬得要不要说一下 08/18 22:55

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 是网站改版?还是刻意防爬虫?

热门看板

赞助商连结