作者swwy1661 (小玉米)
看板Python
标题[问题] selenium爬取不了完整页面资讯
时间Fri Jun 14 17:10:23 2019
各位大大好,小弟是自学爬虫新手,请多多指教!
小弟有2个问题想询问~
第一个问题是,小弟目前在练习爬取视频,
遇到了一个网页,是需要点击拨放,跳到专属的拨放器,才会跳出真实的网页地址
如verystream!
所以小弟就使用selenium进行以下的操作
browser.find_element_by_xpath('//*[@id="btn2"]').send_keys(Keys.ENTER)
time.sleep(10)
page_source = browser.page_source
print(page_source)
browser.quit()
selenium确实转换到VS之拨放器,且网页内容也加载了mp4的url
但抓取page_sourece还是没有获得此地址,希望有大大可以帮忙解、解答
第二个问题,小弟想问,有些网址,不论是用request或selenium都无法获取全部的元素
是甚麽原因呢?有甚麽关键字能找到学习这类类似反爬虫相关的文章吗?
以上,拜托大大们帮忙解答或提供思路了,谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.250.176.130 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1560503425.A.39D.html
1F:推 bugbug777: 我也是有点兴趣 不过你要附一下图片 还是网页的网址 06/14 23:49
2F:→ bugbug777: 不然看不懂 06/14 23:49
3F:→ s860134: 通常页面播放器都是走 JS 你要抓的话可能要捞 network 06/15 15:23
4F:→ TakiDog: 现在看到 hmm 你的verysteam不知道是不是跟我做的一样 06/17 02:15
6F:→ TakiDog: 只是自己在用的 命名就:) 06/17 02:17
7F:→ swwy1661: 谢T大,但无法使用,我的那个网站没办法直接找到真实地 06/22 19:58
8F:→ swwy1661: 址,後来通过selenium点击其他网站,达成找到真实目标 06/22 19:58
9F:→ swwy1661: ,完成爬虫。 06/22 19:58