作者m87dd05 (八八里阿巴)
看板Python
标题[问题] 爬虫剔除不必要标签
时间Tue Mar 12 10:57:35 2019
小弟是爬虫新手
想请问各位前辈
我目前已经针对网页爬到如附图之资讯了(利用 find + find_all 搭配for回圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下图之资讯
https://imgur.com/a/8FTeXMM
但因<th>包住<span>,但<span>的内容我不需要,我只需要 Time
试过如果我在这个时候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 会
得到
----------
Time
(S)
----------
想请问:
(1) 以目前状态来看我是不是只能自己去处理 Time 换行 (s) 的这串资料,可能自己剔
除换行符号之後的资讯?
(2) 有没有更好的解法可以直接拿到 Time呢?
find_all("th", attrs={"data-XXXXXX: ""})
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.249.60.124
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1552359457.A.082.html
1F:推 rexyeah: find_all("th" attrs=lambda x: x and "whatever" in x) 03/12 11:33
2F:→ rexyeah: 没测过... 不过常用类似的方法去筛选抓回来的东西 03/12 11:33
3F:推 nini200: 直接给网址 03/12 13:57
4F:推 art1: 使用.contents[0]看看 03/12 22:26