作者be00148 (有新信件還沒看)
看板Python
標題[問題] 爬蟲網頁圖表資料問題
時間Wed Jul 1 22:40:59 2020
各位高手大大晚安
我想抓取下圖的資料檔
https://i.imgur.com/tmpyyZy.jpg
已經知道圖表的資料是從這個網址匯入
https://i.imgur.com/znv2SKe.jpg
但是我直接把這段網址貼到瀏覽器會說找不到網頁
https://i.imgur.com/PRKcbtJ.jpg
不曉得是哪裡有放過濾機制
因為如果後面參數不要放那麼多
是可以抓到股價資料
但是主力,券商買賣家數怎麼試就是沒辦法
不曉得有沒有經驗的大大指點一下
卡了2天了QQ
https://histock.tw/stock/main.aspx?no=2330
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.66.220 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1593614461.A.060.html
1F:推 cuteSquirrel: GET裡面的header要設定user-agent和referer 07/01 23:04
2F:→ cuteSquirrel: 所要的資訊可以在原本截圖Response Headers裡面找到 07/01 23:07
4F:→ be00148: @cuteSquirrel 之前我只有加 user-agent 07/01 23:23
5F:→ be00148: 原來還要加referer 不過要如何判斷header應該加哪些資料 07/01 23:23
6F:→ be00148: ? 07/01 23:23
7F:→ be00148: @cuteSquirrel 真的謝謝了 受小弟一拜<O> 07/01 23:24
9F:推 cuteSquirrel: 就從常見的幾個開始試吧 爬蟲滿常遇到這些情況 07/01 23:29
10F:→ cuteSquirrel: 不客氣~ 07/01 23:29
11F:→ alvinlin: 其實沒有一定。通常都是用上述方法後一個個刪減到最少。 07/01 23:31
12F:→ alvinlin: 這都是爬多了就會知道了。懶得刪也ok。 07/01 23:33
13F:→ be00148: A大 謝謝 試到最後 只留referer就好XD 07/01 23:33
14F:→ alvinlin: ^^great!我的理解是這完全取決於伺服器端怎麼做的。 07/01 23:36
15F:→ be00148: 我可以再問一個問題嗎 抓下來的資料看起來像json 讀取後 07/01 23:39
16F:→ be00148: 資料的部分變成字串 有什麼方式可以快速轉換為list嗎 07/01 23:39
17F:推 cuteSquirrel: 可以用response.json()拿到python dict 07/01 23:47
18F:推 cuteSquirrel: 用dev tool看到的key去抓字串,再用re去擷取 07/01 23:51
19F:→ alvinlin: 嗯。再import json;json.loads() 07/01 23:52
21F:→ alvinlin: 如上圖。K就變成list了 07/01 23:55
23F:→ be00148: 針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就 07/02 00:03
24F:→ be00148: 可以轉成list 謝謝了 07/02 00:03
25F:→ alvinlin: ^^。順便也可以去參考skcom 0.9.4 07/02 00:23
26F:→ alvinlin: 嗯..最近好像到0.96了。 07/02 00:23