作者lovex (L O V E X)
看板Python
标题[问题] 新手请教爬虫
时间Tue Sep 1 17:26:32 2020
新手学习爬虫中~
请问如以下的学校公告栏
http://www.cshs.kh.edu.tw/post/book.asp
soup = BeautifulSoup(html, 'html.parser')
for link in soup.find_all(href=re.compile("view")):
print(link.get('href'))
这样可以抓到内文实际的连结,但不知如何抓细节
主要想抓整个table把新的资料写入sql db, 不知道怎麽抓好呢?
(因为它的table都没有id 或 class之类的~)
(新增资料--这会搭配Windows每日执行task)
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.192.193.194 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1598952395.A.09E.html
1F:→ panex0845: 整个表格也没几行 把网页抓下来做字串分析就行了 09/01 19:44
2F:→ chickengod: 有 table 的话 用 soup 抓出 table 喂给 pandas 09/01 20:11
3F:→ chickengod: 不过这网页有 RSS 的话 直接用 feedparser 09/01 20:12
4F:→ chickengod: 就不需要自己处理网页 09/01 20:12