作者edl2000 (Eduardo)
看板Python
标题[问题] 关於爬网页的新手问题
时间Wed Oct 2 17:38:17 2019
看了一些网路上的教学之後开始练习抓资料
PTT跟yahoo有固定的html 格式的可以抓到了
不过巴哈姆特的排行榜却很奇怪
https://forum.gamer.com.tw/?page=1&c=21
我看他的资料都在 Javascript里面
这样要怎麽处理...有没有可以指点一下 >_<"
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 210.61.134.145 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1570009100.A.FFB.html
1F:→ dododavid006: 我之前有用过一种作法是把资料从 js 找出来 然後加 10/02 21:34
2F:→ dododavid006: 上一段转成 json 的 code 再整个拿去给 nodejs 跑 10/02 21:34
3F:→ dododavid006: 跑完有就 json 了 不过这样其实挺麻烦的 10/02 21:35
4F:→ dododavid006: 就有 10/02 21:35
5F:推 vi000246: 用regex把整段js存起来 再找能直译js的lib 10/03 09:12
6F:→ edl2000: 好的,谢谢两位,来试试看 10/03 09:21
7F:→ frank910138: 去看js 内容有办法抓出来改写成python? 10/03 18:49
8F:→ TitanEric: 花时间改写不如丢给nodejs跑比较快 10/03 19:47
9F:推 Falldog: 不就直接call他的api就好了吗!? 10/10 22:17
11F:→ edl2000: 看到了,感谢指点,已经成功爬回来写入档案 10/14 18:26