作者MAGICXX (逢甲阿法)
看板Python
标题[问题] 档案下载完毕後 才继续
时间Sat Nov 7 16:15:46 2020
我现在用爬虫去抓资料
可是有时候在下载还没完成之前 他就又去重新找新的资料 然後就会少抓一笔资料
然後就会跳过一笔资料 害我的资料常常会有缺少
请问一下 selenium 有没有 "档案下载完成之後 再做接着的动作" 这种机制
谢谢
--
◢███◣ 真是太令我兴奋了,教授BOY~~
█████
█▉◥█◤ 覆盖一张空白考卷在桌上 结束这学期
██ ◤ \
◤◤╲╰┤ ㊣ justlasai
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.134.51.64 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1604736948.A.C96.html
1F:推 pig98520: 加一个检查档案是否存在的机制? 11/07 17:41
2F:→ MAGICXX: 可是 我下载的档案都是随机的乱码 有办法判别吗? 11/07 18:00
3F:→ MAGICXX: 而且其实都很小 他们下载很快 点了下载之後 因为他伺服器 11/07 18:02
4F:→ MAGICXX: 端处理下载会有延迟 才会发生下载错误的问题... 11/07 18:02
5F:推 lambo: 已经知道延迟 不然就sleep一下? 11/07 18:06
6F:→ MAGICXX: 设太短会没用 设太长等很久... 11/07 18:27
7F:→ MAGICXX: 我刚刚试了一下 大概200~300个档案会跳一次 很讨厌.... 11/07 18:30
8F:推 andy19960407: 直接先判定好要下载哪些资料 在for 起来载勒? 11/07 22:49
9F:→ Pieteacher: time.sleep() 11/07 22:52
10F:推 ripple0129: 土炮一下,搜索下载资料夹档案有没有.tmp之类,下载 11/08 00:23
11F:→ ripple0129: 中档案印象chrome会有不同副档名 11/08 00:23
12F:→ MAGICXX: 因为资料名称是乱码 没办法先放在for里面给他跑 11/08 03:10
13F:→ MAGICXX: 最後我还是给他sleep...虽然我觉得应该有方法才对... 11/08 03:10
15F:推 TitanEric: 感觉可以用以上chrome内建机制解 11/08 09:14
16F:推 LP9527: 用 「档案数量 」作判断啊.. 11/08 11:08
17F:推 annheilong: 你有办法下载档案就会知道档名吧? 11/09 10:22
18F:推 s860134: 档案数量和 .temp 应该是合理解 11/10 09:14
19F:→ MAGICXX: 我最後是去比对 如果没有crdownload 就继续抓这样 11/11 11:53
20F:推 mychiux413: 下载时有办法换成requests去做吗? 12/21 19:20