作者jasonfun44 (kk123)
看板Python
标题[问题] 爬新闻html5抓不到内文
时间Sat Oct 15 22:19:00 2022
想请教版上的专家,有先搜寻资料了,但还是爬不了新闻内文,故想请教
目前想要把新闻内文爬进来
https://reading.udn.com/read/story/122749/6680114
网页程式如下
https://i.imgur.com/eYufIAY.png
目前程式到这一步卡住,一直抓不到内文,故要请教各位专家该怎麽调整
,谢谢。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.5.62 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1665843542.A.E60.html
1F:嘘 tzouandy2818: 贴程式码不要用图片 贴图片还贴成相簿 又要再点进去 10/15 22:36
2F:→ tzouandy2818: 然後你选择器应该打错了 你检查一下 10/15 22:36
※ 编辑: jasonfun44 (118.169.5.62 台湾), 10/15/2022 22:51:50
3F:→ jasonfun44: 已修正,抱歉,但我不知道选择器怎麽改,我试了好几次 10/15 22:53
4F:→ tzouandy2818: 你先把选择器最後的 div.inline-ads 删掉看看 10/16 00:10
7F:→ tzouandy2818: 最後印出来的结果里面还有一些垃圾 留给你自己滤 10/16 00:44
8F:→ jasonfun44: 谢谢! 10/16 13:13
9F:推 GQward: 使用html.parser解析器爬下来的html可能会将原本在网页上 10/20 17:06
10F:→ GQward: 是 - -的原始码变成!- 造成变注解形式 所以就爬不到内文 10/20 17:06
11F:→ jasonfun44: 原来如此!!! 10/20 22:58