作者mejichoco (UoU)
看板Python
标题[问题] 是网站改版?还是刻意防爬虫?
时间Mon Aug 16 15:52:23 2021
因为工作的原因,还有暂时资料的撷取
需要到书店的网页撷取资料
但是在爬了3个月之後,网站突然网址不一样
然後request的内容跟开发者工具的HTML不一样
但是因为image网站不稳定,那我直接到巴哈求助的内容
直接贴上来
https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212
这是爬虫爬到的 requests
https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729
完全没有,我所需要如下的价钱,以及装订(peprback)
这是开发者的 HTML
https://gist.github.com/cj044/9a889246299bb3562841e647706b438f
如果真的不行,我直接换网站好了
我只是要里面的资料,不是要攻击网站
还是用AMAZON 或是 ebay的API 直接代替爬虫
但是Amazon 网路上没有相关撷取书籍资料至EXCEL的python实作资料,实在很困扰
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.136.229.162 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1629100346.A.40F.html
※ 编辑: mejichoco (101.136.229.162 台湾), 08/16/2021 17:54:27
https://i.imgur.com/tuGkFVm.jpg 我要的是这个!
非常感谢各位专家热心帮忙,不过专业术语rendar是甚麽? 谢谢!
大大网指标的是 list_name=srh? 但是您怎麽知道list_name=i-r-zh_tw
这样还有可能爬得到吗?
2F:→ Hsins: 老实说, 是你基础不好, 天珑没这麽难爬 08/16 23:20
3F:→ Hsins: - 对方网站没有太多的方式判断你是不是要攻击他, 对他来说 08/16 23:21
4F:→ Hsins: 就是网路请求, 但这个请求如果太多太快, 对他来说可以用 08/16 23:22
5F:→ Hsins: 这个特徵认为你是要攻击。实际上,售票网站那种抢票状况 08/16 23:22
6F:→ Hsins: 对网站来说可以算是攻击呀!因为会让我伺服器无法正常处 08/16 23:23
7F:→ Hsins: 理。你用自动化的方式去拿资料,没有销售行为,对他来说 08/16 23:24
8F:→ Hsins: 也是种攻击。 08/16 23:24
9F:→ Hsins: - robots.txt 并不会影响你送请求跟返回的讯息,他是给一 08/16 23:25
10F:→ Hsins: 些遵守规范的人/程式看的,有些自动化爬虫程式看到不允 08/16 23:25
11F:→ Hsins: 就不会去爬他,当然你的爬虫也可以忽略他的声明继续爬, 08/16 23:26
12F:→ Hsins: 顺带一提,如果对方 robots.txt 言明不想被爬但你还用自 08/16 23:26
13F:→ Hsins: 化手段获取资料,在某些国家是违法行为会吃官司的。 08/16 23:27
14F:→ Hsins: - 一楼的推文被你编辑文章删掉了,我想他要说的是你想要的 08/16 23:28
15F:→ Hsins: 资料,都可以在请求後所拿到的 HTML 原始文件中取得,而 08/16 23:28
16F:→ Hsins: 这些资料被放在 <header> 元素中 08/16 23:29
既然书店不愿意,那就不浪费时间了!
17F:→ Kitten1156: 知道有robot.txt 08/17 00:43
18F:推 Kitten1156: 知道有robot.txt 08/17 00:43
19F:→ Kitten1156: 但是从来没去认真看他 哈 08/17 00:44
20F:推 poototo: 降低爬速,加proxy 08/17 08:31
还是有没有Amazon Python API的使用sample AMAZON API应该就合法了吧?
但是没有Amazon ISBN的使用手册!
※ 编辑: mejichoco (101.137.209.158 台湾), 08/17/2021 16:36:59
21F:→ mantour: 我爬出来都很正常耶, 你是怎麽爬得要不要说一下 08/18 22:55