作者bunby (Bunby)
看板Python
标题[问题] 如何有效率地学习爬虫(台湾股市资讯网)?
时间Sun Nov 1 08:38:38 2020
目的:
抓取台湾股市资讯网的资料,不用手动输入代号,然後选择个股市况/每月营收/基本资料
/法人买卖超/每月营收/股利/财务报表(单季/年度),然後再复制/贴上到excel上。
注记0:goodinfo预设带入的月营收,时间排序是从下到上,我想要从上到下。
注记1:goodinfo预设带入的损益表是「累季」的,我想要选择「单季」还有「年度」。
注记2:goodinfo预设带入的格式,时间排序是从右到左,我想要从左到右。
范例档说明档下载:
https://wsi.li/dl/stNaX7Dqu6JdvhPqK/
想使用的工具:python或者excel(vba)
使用Python:
优点:套件多,网路资源也多,功能也强大。
缺点:不知道抓取资料後,能不能像excel这样排好一个个sheet?
使用Excel:
优点:抓取资料後可以直接在上面整理。
缺点:没有套件,处理网页资讯可能会让code变的很复杂。
小弟背景:
会hello world,看的懂简单的宣告、回圈、判断式。
目前遇到的困难:
0. 网路上的资源感觉太过零碎,想请问各位有没有推荐比较详细、比较适合初学者,
然後有系统的书?
1. 感觉爬虫最困难的部分是在处理网页,请问爬虫之前要先搞懂一部分的html的架构
吗?
目前有看到适合的书:
Python:
0. Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来
1. Python:网路爬虫与资料分析入门实战
VBA:
0. 文科生也学得会的网路爬虫:Excel VBA + Web Scraper
1. Excel VBA实战技巧|金融数据x网路爬虫
注记:
0. 不想花几千块买课程,但是可以买几本书,还是说买课程最快最有效率?
1. 小弟不在乎几秒的执行效率,只求抓的资讯来源正确无误。
2. 爬股市资讯可能只是第一步,或许之後可以再往其他的方向迈进。
谢谢各位花时间看这篇文章。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.204.245.22 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1604191120.A.3B2.html
1F:→ MOONY135: 只是要做这种事情根本还不需要买书 网路上资讯拼一拼就 11/01 08:44
2F:→ MOONY135: 好 11/01 08:44
3F:→ MOONY135: 而且看起来你根本就还只是停在想 而没有开始做。google 11/01 08:46
4F:→ MOONY135: 一下就找到有人做过了 11/01 08:46
5F:→ MOONY135: Goodinfo的东西看起来可以写code再整理一下格式...开始 11/01 08:49
6F:→ MOONY135: 动手吧不然永远学不会 11/01 08:49
7F:→ OrzOGC: 女生我不知道 对男生来说最有效率的方法就是去爬prontub 11/01 09:33
8F:→ OrzOGC: e 11/01 09:33
9F:推 aidansky0989: 先会写脚本爬ptt西斯送到mysql,学会了再爬dcard西 11/01 10:04
10F:→ aidansky0989: 斯或104送mysql,都会了学scrapy爬ubereats或京东, 11/01 10:04
11F:→ aidansky0989: 不会的google或看requests文档,爬一周再考虑找书 11/01 10:04
12F:→ aidansky0989: 或课程 11/01 10:04
13F:→ TakiDog: 爬O片网站,解析到真实影片位置(可直连的) 会学到很多反 11/01 13:50
14F:→ TakiDog: 爬跟拆别人API流程的知识 11/01 13:50
15F:推 ToastBen: 推一楼 11/01 17:06
16F:推 andy19960407: 一楼诚实 11/03 21:29
17F:推 miku3920: 花钱 11/04 01:22
18F:→ rs6000: 先动手做做看再说... 11/04 07:10