作者ibgvdlbj (:))
看板Python
标题[问题] 爬虫 url 空白 的问题
时间Fri Aug 9 13:44:16 2019
Hi 大家好
小妹新手上路
正在试用 python3 urllib.request 从一个网站里下载多个pdf档案
後来发现 400 错误
仔细研究後 发现 有些 pdf 的link 有空白,在正确的网址下空白则用%20代替
想请问大家该怎麽解决?
因为有些pdf link 没有空白的问题
目前在猜想是不是可以这样写?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻烦各位大大了,谢谢!!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 99.241.153.151 (加拿大)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1565329458.A.B85.html
※ 编辑: ibgvdlbj (99.241.153.151 加拿大), 08/09/2019 13:53:49
1F:→ CodingMan: url encode? 08/09 15:03
2F:→ niceguy: replace(' ','%20') ? 08/09 15:06
3F:→ ibgvdlbj: 可以请1楼上大大 详细一点说明吗? 新手上路 @@ 08/09 23:07
4F:→ ibgvdlbj: 2楼大大 我试着写 08/09 23:07
5F:→ ibgvdlbj: url = root_url + url 08/09 23:07
6F:→ ibgvdlbj: url.replace(“ “, “%20”) 08/09 23:07
7F:→ ibgvdlbj: getFile(url) 08/09 23:07
8F:→ ibgvdlbj: 还是不行、不知道哪边写错@@ 08/09 23:07
9F:→ CodingMan: url = url.repalce()...... 08/09 23:11
10F:→ ibgvdlbj: 已跑出~ 谢谢C大! 08/10 00:04
11F:→ ibgvdlbj: 另外想请问,我写raw_url 给定网址(第一页)下载,但 08/10 00:04
12F:→ ibgvdlbj: 其实还有下5页的pdf file (想下载100份 pdf files) 不 08/10 00:04
13F:→ ibgvdlbj: 知道在这部分要怎麽写呢? 08/10 00:04
14F:→ jiyu520: 学习google噢 爬虫有许多资源和范例 08/10 09:17
15F:→ CodingMan: 网页有连结就找出来 没有就观察规则 08/10 09:25
16F:→ ibgvdlbj: 好的,我来试试,有问题再上来请教,谢谢各位 :) 08/10 12:58