作者timwen (婚前忧郁症)
看板Python
标题[问题] Selenium爬资料时点不到下一页
时间Tue Feb 12 03:13:05 2019
小弟爬虫新手
之前看到网路有人分享爬世界盃的队伍资料的程式码
就抄下来练习...
http://zq.win007.com/big/team/TeamSche/19.html
这是我练习的网页,英超Arsenal的球队赛程
我想练习把这52页的赛程抓下来
我的程式码如下:
# -*- coding: UTF-8 -*-
import selenium
import bs4
import traceback
import time
import csv
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common import keys
driver=webdriver.Chrome()
driver.get('
http://zq.win007.com/big/team/TeamSche/19.html')
target=driver.find_elements_by_xpath('//div[@id="div_Table2"]/table/tbody/tr')
for index in range(60):
...程式码省略...
print(mergegame)
driver.find_elements_by_link_Text('下一页').click()
driver.close()
我点选不到下一页,执行60次的回圈时,
会不断重复抓第一页的资讯
如果不能用link_text,有更好的解决方法吗??
第一次发文,不知道描述的问题跟提供的线索足不足够
搜寻旧文找Selenium时也找不到相关线索
还请大家海涵...
感谢解答
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.161.243
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1549912388.A.5AB.html
1F:推 rexyeah: find by css selector or by xpath呢? 02/12 08:04
2F:推 HenryLiKing: 你要看看是不是已经被当作机器人了,有可能被塞假资 02/12 08:35
3F:→ HenryLiKing: 料了OAO 02/12 08:35
4F:推 wsybu: 设定一下useragent...因为我记得预设user agent里面有 02/12 14:47
5F:→ wsybu: headless的字串..可能会被server发现 02/12 14:48
6F:推 max0616: 用用看xpath吧 02/13 23:27
7F:→ ntumath: 你用的是find_elements,回传的是一个list 02/14 02:14
8F:→ ntumath: driver.find_elements_by_link_text('下一页')[0].click 02/14 02:15
9F:→ ntumath: 如果你改用css或xpath还是用elements的话,会鬼打墙XD 02/14 02:18