WEB批踢踢

作者 chickengod (雞大俠) 標題 Re: Selenium爬取資料出錯時間 Thu Feb 11 20:20:09 2021 ─────────────────────────────────────── ※ 引述《code0093 (DADY)》之銘言： : 我要爬工商名錄的資料 : 網址 : https://dmz26.moea.gov.tw/GMWeb/investigate/InvestigateFactory.aspx : 程式碼貼在GitHub : https://github.com/san60708/helppppppp/blob/main/ss : 不知道為什麼我用find_elements找到資料後再用for把資料抓出來。他只會抓第一行... : 不知道哪裡出錯了 : 請大大協助，感謝～你需要解決網頁的彈出視窗 https://i.imgur.com/cSgaX12.jpeg 不然下一次的 driver.get() 好像會因為這樣被卡住然後就一直死在 exception 的 while loop 以下的程式可以在遇到 alert 彈出視窗 exception 的時候按確定 from selenium.common.exceptions import UnexpectedAlertPresentException # 此處用來取代原本的 except except UnexpectedAlertPresentException as ex: print("Exception has been thrown. " + str(ex)) alert = driver.switch_to.alert alert.accept() """ Exception has been thrown. Alert Text: None Message: unexpected alert open: {Alert text : 查無資料} """ --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.137.58 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1613046017.A.FB6.html ※ 編輯: chickengod (114.25.137.58 臺灣), 02/12/2021 04:03:31

1^F：推 code0093: 感謝大大回覆 02/12 17:32

2^F：→ code0093: 我先測試某一頁，暫且忽略跳出的方塊 02/12 17:33

3^F：→ code0093: https://i.imgur.com/3dVF3Vz.jpg 02/12 17:33

4^F：→ code0093: https://i.imgur.com/m5XYIEa.jpg 02/12 17:34

5^F：→ code0093: 程式26行開始爬取資料 02/12 17:34

6^F：→ code0093: https://i.imgur.com/y83ruZK.jpg 02/12 17:34

7^F：→ code0093: 程式只爬得出第一行...然後這個頁面總共683筆，他就重 02/12 17:35

8^F：→ code0093: 複爬683次 02/12 17:35

Hi 根據 selenium 文件 https://tinyurl.com/2de8zwvf find_elements_by_xpath() return "WebElement" list https://tinyurl.com/15na3djs WebElement 是一個 class 你可以使用內建的 property 比如 .text 得到文字 data = driver.find_elements_by_xpath("//div//table[@width='90%']/tbody") print(data[0].text) print(data[1].text) 類似這樣 """ 工廠登記編號 630209 ... 工廠登記編號 630206 ... """ ※ 編輯: chickengod (114.25.137.58 臺灣), 02/12/2021 23:22:04

9^F：推 code0093: 感謝大大。但是我現在用for單純印出data.text是正常的 02/14 00:37

10^F：→ code0093: 但是如果data.find就又是錯誤的如圖 02/14 00:37

11^F：→ code0093: https://i.imgur.com/EY6Ze7J.jpg 02/14 00:38

12^F：→ code0093: https://i.imgur.com/ygNAMJx.jpg 02/14 00:38

13^F：→ code0093: 如果是webelement的話那我要再更深入超多特定資料為什 02/14 00:39

14^F：→ code0093: 麼會只印出第一筆呢..還是是我電腦問題 02/14 00:39

15^F：→ code0093: 感謝大大協助 02/14 00:39

16^F：推 code0093: https://i.imgur.com/sPWoKZr.jpg 02/14 00:47

17^F：推 code0093: 我換另一種方法寫就沒問題了，但是我還是很疑惑為何用fo 02/14 00:49

18^F：→ code0093: r不行... 02/14 00:49

19^F：→ chickengod: 我猜可能跟這個有關？ 02/14 02:39

20^F：→ chickengod: https://i.imgur.com/DZqt27e.jpg 02/14 02:39

21^F：→ chickengod: 會根據 xpath 寫法選擇抓整頁或者相對於元素的位置 02/14 02:39

22^F：→ chickengod: 如果都是長的像絕對路徑的xpath 02/14 02:51

23^F：→ chickengod: 大概就不管目前元素在哪一律抓第一個 02/14 02:51

24^F：→ chickengod: 也許就能解釋為什麼你會遇到這情況 02/14 02:51

25^F：→ chickengod: 不過我是覺得以都能達到目的來說 02/14 02:51

26^F：→ chickengod: 直接抓 .text 存下來 02/14 02:51

27^F：→ chickengod: 再一次針對全部字串處理會不會執行比較快 02/14 02:51

28^F：→ chickengod: 畢竟 selenium 還要控制一個瀏覽器多少會影響效能 02/14 02:51

29^F：推 code0093: 了解，感謝大大的用心回答 02/14 22:50

30^F：→ code0093: 目前我就要先抓text下來再分解字串效率確實快很多 02/14 22:51

31^F：→ chickengod: (￣▽￣) okder ~ 02/14 23:41

32^F：推 kshskghs: xpath用絕對路徑較好 03/06 13:54

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Python 板

熱門看板

贊助商連結

熱門看板

贊助商連結