Python 板


LINE

请问各位大大 我最近在学习如何使用爬虫程式所以我拿ptt网页板作为练习目标 但我碰到在10则後会反覆抓取同一则贴文的title和连结的问题 https://imgur.com/a/Bnqo2B1 我猜想是网页没有载入新的网页资料 但是下拉式载入的动态网页不是只要下拉就会更新吗 而且我看chrom driver的selenium的下拉是有在执行的,请问是什麽原因导致? 以下我的程式码 import urllib.request as req import requests import selenium import schedule import time import json from time import sleep import json import openpyxl import random from selenium.webdriver.common.by import By from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.support import expected_conditions as EC import bs4 pttWeb = openpyxl.load_workbook('pttweb.xlsx') ws = pttWeb.active i = 1 scroll_time = int(input("scroll_Times")) options = Options() options.chrome_executable_path = "C:\chromedriver_win32\chromedriver.exe" driver = webdriver.Chrome(options = options) sleep(3) driver.get('https://www.pttweb.cc/hot/all/today') sleep(5) prev_ele = None for now_time in range(1, scroll_time+1): sleep(2) eles = driver.find_elements(by=By.CLASS_NAME,value='e7-right.ml-2') # 若串列中存在上一次的最後一个元素,则撷取上一次的最後一个元素到当前最後一 个元素进行爬取 try: # print(eles) # print(prev_ele) eles = eles[eles.index(prev_ele):] except: pass for ele in eles: try: titleInfo = ele.find_element(by=By.CLASS_NAME, value = "e7-article-default") title = titleInfo.text href = titleInfo.get_attribute('href') ws.cell(i,1,i) ws.cell(i,2,title) ws.cell(i,3,href) sleep(3) inner =req.Request(href, headers ={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36" }) with req.urlopen(inner) as innerRespomse: articleData = innerRespomse.read().decode("utf-8") articleRoot = bs4.BeautifulSoup(articleData, "html.parser") main_content = articleRoot.find("div", itemprop="articleBody") boardInfo= articleRoot.find("span", class_="e7-board-name-standalone") authorInfo = articleRoot.find("span", itemprop="name") timeInfo = articleRoot.find("time", itemprop="datePublished") countInfo = articleRoot.find_all("span", class_="e7-head-content") board = boardInfo.text author = authorInfo.text Time = timeInfo.text count = countInfo[4].text allContent = main_content.text pre_text = allContent.split('--')[0] ws.cell(i,4,board) ws.cell(i,5,author) ws.cell(i,6,Time) ws.cell(i,7,count) ws.cell(i,8,pre_text) pttWeb.save('pttweb.xlsx') sleep(random.uniform(5,20)) i = i+1 except: pass prev_ele = eles[-1] print(f"now scroll {now_time}/{scroll_time}") js = "window.scrollTo(0, document.body.scrollHeight);" driver.execute_script(js) sleep(40) driver.quit() _____________________ 先谢过各位大大了 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.158.79.67 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1671079197.A.34F.html
1F:→ lycantrope: 建议先改掉try-except:pass,把code贴pastebin较容易看 12/15 13:09
2F:→ GHdisf45a: 更:https://pastebin.com/cyUdWYLZ code的Pastebin 12/15 16:34
3F:→ GHdisf45a: 更:https://pastebin.com/cyUdWYLZ code的Pastebin 12/15 16:37
4F:→ surimodo: 忙猜 你class抓错 标题不只 e7-article-default 12/16 01:28
5F:→ surimodo: 还有 e7-article-viewed 跟 e7-article-most-recently-v 12/16 01:29
6F:→ surimodo: iewed 12/16 01:30
7F:→ surimodo: 然後 try expect 不要 pass 12/16 01:31
8F:→ surimodo: 一定有跳出找不到class pass干嘛 12/16 01:32
9F:→ surimodo: 不用除错乾脆把try expect全删好了 12/16 01:33
10F:→ surimodo: 写了又pass 脱裤子放屁 12/16 01:33







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP