作者pfii1997119 ( )
看板Python
标题[问题] 爬虫无法读完全部的资料
时间Tue Apr 4 02:58:02 2023
最近正在学习爬虫 requests & beautifulsoup4
看了影片的tutorial 想要自己尝试用这个网站进行爬虫
https://monitor.buyerguide.info/pre-selection/cp-eye
检查之後发现这个table在tbody这个标签里面
但是当我print(tbody.contents)之後
发现他只有读到GW2480Plus这笔资料 後面都遗失了
想请问应该要怎麽做才能正确地读到最後一笔资料G322CQP呢?
我的code在下方 可以直接复制
https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4
谢谢python板的大神
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.25.206.98 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1680548285.A.771.html
1F:→ virgil246: 可以用浏览器Devtools 把Javascript Disable看一下 04/04 21:49
2F:→ virgil246: 剩下的资料会跟你爬的到的资料一样 这个是前端的动态 04/04 21:49
3F:→ virgil246: 渲染 04/04 21:49
4F:→ virgil246: 至於要怎麽爬 要去定位出哪一个js function让浏览器 04/04 21:51
5F:→ virgil246: 再拿了一次资料然後把资料补到画面上 通常都混淆过 04/04 21:51
6F:→ virgil246: 很难看懂 我也不会 04/04 21:51
7F:→ virgil246: 好像也不叫混淆 前端通常会用webpack打包js 这时候会 04/04 21:55
8F:→ virgil246: 把js作压缩 所以变数的可读性下降很多 04/04 21:55
9F:→ tzouandy2818: 用 requests-html 来跑 JS 跑完再爬内容 04/05 16:16