作者ibgvdlbj (:))
看板Python
標題[問題] 爬蟲 url 空白 的問題
時間Fri Aug 9 13:44:16 2019
Hi 大家好
小妹新手上路
正在試用 python3 urllib.request 從一個網站裡下載多個pdf檔案
後來發現 400 錯誤
仔細研究後 發現 有些 pdf 的link 有空白,在正確的網址下空白則用%20代替
想請問大家該怎麼解決?
因為有些pdf link 沒有空白的問題
目前在猜想是不是可以這樣寫?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻煩各位大大了,謝謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 99.241.153.151 (加拿大)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1565329458.A.B85.html
※ 編輯: ibgvdlbj (99.241.153.151 加拿大), 08/09/2019 13:53:49
1F:→ CodingMan: url encode? 08/09 15:03
2F:→ niceguy: replace(' ','%20') ? 08/09 15:06
3F:→ ibgvdlbj: 可以請1樓上大大 詳細一點說明嗎? 新手上路 @@ 08/09 23:07
4F:→ ibgvdlbj: 2樓大大 我試著寫 08/09 23:07
5F:→ ibgvdlbj: url = root_url + url 08/09 23:07
6F:→ ibgvdlbj: url.replace(“ “, “%20”) 08/09 23:07
7F:→ ibgvdlbj: getFile(url) 08/09 23:07
8F:→ ibgvdlbj: 還是不行、不知道哪邊寫錯@@ 08/09 23:07
9F:→ CodingMan: url = url.repalce()...... 08/09 23:11
10F:→ ibgvdlbj: 已跑出~ 謝謝C大! 08/10 00:04
11F:→ ibgvdlbj: 另外想請問,我寫raw_url 給定網址(第一頁)下載,但 08/10 00:04
12F:→ ibgvdlbj: 其實還有下5頁的pdf file (想下載100份 pdf files) 不 08/10 00:04
13F:→ ibgvdlbj: 知道在這部分要怎麼寫呢? 08/10 00:04
14F:→ jiyu520: 學習google噢 爬蟲有許多資源和範例 08/10 09:17
15F:→ CodingMan: 網頁有連結就找出來 沒有就觀察規則 08/10 09:25
16F:→ ibgvdlbj: 好的,我來試試,有問題再上來請教,謝謝各位 :) 08/10 12:58