[問題] 爬蟲網頁圖表資料問題

時間Wed Jul 1 22:40:59 2020

各位高手大大晚安我想抓取下圖的資料檔 https://i.imgur.com/tmpyyZy.jpg 已經知道圖表的資料是從這個網址匯入 https://i.imgur.com/znv2SKe.jpg 但是我直接把這段網址貼到瀏覽器會說找不到網頁 https://i.imgur.com/PRKcbtJ.jpg 不曉得是哪裡有放過濾機制因為如果後面參數不要放那麼多是可以抓到股價資料但是主力,券商買賣家數怎麼試就是沒辦法不曉得有沒有經驗的大大指點一下卡了2天了QQ https://histock.tw/stock/main.aspx?no=2330 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.66.220 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1593614461.A.060.html

1^F：推 cuteSquirrel: GET裡面的header要設定user-agent和referer 07/01 23:04

2^F：→ cuteSquirrel: 所要的資訊可以在原本截圖Response Headers裡面找到 07/01 23:07

3^F：→ alvinlin: 和回neiltsang的一樣, 用https://curl.trillworks.com/ 07/01 23:21

4^F：→ be00148: @cuteSquirrel 之前我只有加 user-agent 07/01 23:23

5^F：→ be00148: 原來還要加referer 不過要如何判斷header應該加哪些資料 07/01 23:23

6^F：→ be00148: ? 07/01 23:23

7^F：→ be00148: @cuteSquirrel 真的謝謝了受小弟一拜<O> 07/01 23:24

8^F：→ alvinlin: https://i.imgur.com/0pakzBg.jpg 07/01 23:25

9^F：推 cuteSquirrel: 就從常見的幾個開始試吧爬蟲滿常遇到這些情況 07/01 23:29

10^F：→ cuteSquirrel: 不客氣~ 07/01 23:29

11^F：→ alvinlin: 其實沒有一定。通常都是用上述方法後一個個刪減到最少。 07/01 23:31

12^F：→ alvinlin: 這都是爬多了就會知道了。懶得刪也ok。 07/01 23:33

13^F：→ be00148: A大謝謝試到最後只留referer就好XD 07/01 23:33

14^F：→ alvinlin: ^^great！我的理解是這完全取決於伺服器端怎麼做的。 07/01 23:36

15^F：→ be00148: 我可以再問一個問題嗎抓下來的資料看起來像json 讀取後 07/01 23:39

16^F：→ be00148: 資料的部分變成字串有什麼方式可以快速轉換為list嗎 07/01 23:39

17^F：推 cuteSquirrel: 可以用response.json()拿到python dict 07/01 23:47

18^F：推 cuteSquirrel: 用dev tool看到的key去抓字串，再用re去擷取 07/01 23:51

19^F：→ alvinlin: 嗯。再import json;json.loads() 07/01 23:52

20^F：→ alvinlin: https://i.imgur.com/qm5Vt8A.jpg 07/01 23:54

21^F：→ alvinlin: 如上圖。K就變成list了 07/01 23:55

22^F：→ alvinlin: https://i.imgur.com/m6iwnAk.jpg 07/01 23:58

23^F：→ be00148: 針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就 07/02 00:03

24^F：→ be00148: 可以轉成list 謝謝了 07/02 00:03

25^F：→ alvinlin: ^^。順便也可以去參考skcom 0.9.4 07/02 00:23

26^F：→ alvinlin: 嗯..最近好像到0.96了。 07/02 00:23

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Python 板

[問題] 爬蟲網頁圖表資料問題

熱門看板

贊助商連結