Python 板


LINE

版上各位先进大家好 我目前正在尝试用BeautifulSoup抓资料 但我碰到一个问题 我的程式有试出来 但是我发现我不懂如何使用RSS看到网页的XML版 这样日後会造成很大的麻烦 举例来说 我首先以YAHOO测试 https://tw.info.yahoo.com/rss/ 然後以奇摩股市来当真正的目标 https://tw.stock.yahoo.com/rss/url/d/e/N2.html 因为我不知道如何看到XML版的资料 (原本书上可以,但我试不出来) 所以我反而是照着书尝试出成果 https://pastebin.com/5503ppZs 所以我完全不知道第5行程式里的item怎麽来的 我也有尝试网页+F12 但是也找不到item 而且在程式的结果中 底下各个文章的标题的标签是<title>(例如第7行程式) 可是当我去看网页时 却是看到https://imgur.com/a/MUi5Vnu 根本没有出现title 所以我想请教 如何看到网页的内容 来决定要抓网页的那个相对应标签 例如看XML档案(其他方法亦可) 不然我以後要到别的网页抓资料根本走不下去 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.225.194
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1556357368.A.0DD.html
1F:→ dododavid006: 你可以试着用 Python 内建的 urllib 或是如果你有 04/27 18:08
2F:→ dododavid006: request 也可以 去把你贴的那个网址抓下来後再存档 04/27 18:08
3F:→ dododavid006: 开你抓下来的档案应该就会看到 xml 了 04/27 18:09
4F:→ dododavid006: Yahoo 的网站有判断你是不是用浏览器开 如果用浏览 04/27 18:10
5F:→ dododavid006: 器开你就会看到订阅 rss 的说明 04/27 18:10
6F:→ alubasteve: 给dododavid006,多谢你的建议,我有去找资料 04/27 21:23
7F:→ alubasteve: https://reurl.cc/epq5m,不知为何上面两组程式的写法 04/27 21:25
8F:→ alubasteve: 都没有反应,https://imgur.com/a/RYXcLK9 04/27 21:37
9F:→ alubasteve: https://imgur.com/a/qAchwwv,抱歉PASTEBIN忙线连不上 04/27 21:39
10F:→ alubasteve: 再者,我也想请教您如何把结果抓下来存档 04/27 21:40
11F:→ dododavid006: 其实确实能抓下来 https://i.imgur.com/OpvFiOy.png 04/27 23:31
12F:→ dododavid006: 至於存档也只是方便你用其它软体读而已 就只是开档 04/27 23:32
13F:→ dododavid006: 再把内容写进去而已 04/27 23:32
14F:→ dododavid006: with open("档名.xml", "wb"): 04/27 23:32
15F:→ dododavid006: with open("档名.xml", "wb") as f: # 更正 04/27 23:33
16F:→ dododavid006: f.write(urllib.request.urlopen("url").read()) 04/27 23:34
17F:推 vi000246: https://countwordsfree.com/xmlviewer 04/27 23:51
18F:→ vi000246: 用这个看就看得到xml格式了 你研究看看是什麽原因造成 04/27 23:51
19F:→ vi000246: 直接用browser跟用rss reader取回来的资料差异 04/27 23:52
20F:→ vi000246: 可能是某个表头会让response吐xml 另个表头是吐回html 04/27 23:52
21F:→ vi000246: 你直接用rss xml python requests当关键字搜寻看看 04/27 23:53
22F:→ vi000246: 喔喔 一楼有解答了 04/27 23:53
23F:→ alubasteve: 给dododavid006,感谢你的协助,我照着打你给的程式 04/28 14:07
24F:→ alubasteve: 尝试,後面就有出现一堆资料,但也因此我发现了新问题 04/28 14:08
25F:→ alubasteve: 出来的结果是网站的原始资料,所以不会出现中文名称 04/28 14:09
26F:→ alubasteve: 而且结果是连续的出来,即使我转贴到WORD而比较有结构 04/28 14:11
27F:→ alubasteve: 也依然没有中文,包含我用vi000246给的网站也是如此 04/28 14:12
28F:→ alubasteve: 请问这是否代表这才是抓资料的常态,也就是要去猜栏位 04/28 14:13
29F:→ alubasteve: 因为我原本是想要让抓取栏位资料汇出成档案 04/28 14:14
30F:→ alubasteve: 例如WORD或是EXCEL,但这在那之前我要去懂如何猜栏位 04/28 14:15
31F:→ alubasteve: 与标签之间的关系才行?请问两位先进都是怎麽做的呢? 04/28 14:16
32F:→ alubasteve: 另外我也有试着用RSS阅读器,但不知为何是这样 04/28 14:17
33F:→ alubasteve: https://imgur.com/a/aOEAGs6,我是用Inoreader 04/28 14:19
34F:→ alubasteve: 并没有出现档案的网页程式资料,请问我是挑错软体了吗 04/28 14:20
35F:→ alubasteve: 还是我有地方不对,也想请教大家 04/28 14:21
36F:→ alubasteve: 感谢dododavid006+vi000246,总算试出成果了 04/28 18:49
37F:→ alubasteve: https://pastebin.com/b84hJAaw 04/28 18:49
38F:→ alubasteve: 另外还可以略做调整成这样(前面已知跳过去) 04/28 18:59
39F:→ alubasteve: https://pastebin.com/KAs4n5bA 04/28 18:59







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP