作者chan15 (ChaN)
看板Python
标题[问题] 抓取 Google Play 评分内容
时间Tue May 7 13:34:03 2019
各位好,请教一个爬虫的问题,以 facebook app 为例
https://play.google.com/store/apps/details?id=com.facebook.katana
https://i.imgur.com/toqUOYV.png
这是我原本捞取的部分,86,815,373 total 这个数字之前会分散在右边 1-5 的区块
可以个别抓取不同等级的个别数量,但前两天发现 Google 把数字移除了
取而代之的是将他放在 HTML JS 那边成为变数计算 bar 的宽度
检视 source code 的时候会发现
https://i.imgur.com/GHvkbmh.png
红色为 total,是蓝色部分的总和,依照比例推敲蓝色部分就代表 1-5
我目前是使用 urllib + pyquery 爬网页,查过文章有看过用 split 来撷取 JS variable 的内容
感觉上是有点风险,不知道有没有什麽比较稳定的方式或套件可以达到这个目的
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.234.173
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1557207246.A.6C5.html