作者guanj (gaunj)
看板Python
标题[问题] 如何爬blob图档
时间Sat Dec 12 22:39:59 2020
如题
因为网页是有跟js互动的
所以我想要用selenium爬上面的图片
图片部分的原始码长这样
<img border="0" class="hej-view__content"
src="blob:
https://xxxxxxxxxxxxxx/10c7d445-5263-4bcf-b999-7e1e1a669d45">
有一些直接贴 blob:
https://XXXXXXXXX/XXXXXXXX 这串网址可以找的到图
这类的有办法爬下来
另一些贴网址去找只会显示 "档案可能已遭到移动、编辑或删除。"
这个就不知道要怎麽爬
不知道blob的运作原理,为什麽可以让有些图片可以爬 有些不行
有没有大大可以指引一下方向
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.195.45.102 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1607784002.A.5E1.html
1F:推 TakiDog: 可以用js 捞Object,看是写js request送回自己的server 12/13 03:16
2F:→ TakiDog: 或是转base64再用python解,或是楼下提供更好的方法XD 12/13 03:16
3F:→ TakiDog: blob可以查 File API / Blob urls 12/13 03:20