Python 板


LINE

大家好,我是Python自学者,虽然习惯自己上网找答案, 但很多基本观念可能没有学到或学好, 所以现下出了一个我不知如何在网路上找答案的问题 我在爬某政府网页时,发现若网页中包含某些中文字元,如 https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1 https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82 Python就会无法读取该字元之後的网页原始码, 以致在该字元前的元素可正常定位,但该字元後的元素用xpath都定位不到 该网页有写charset=big5,所以我试着先把网页原始码重新编码,如: str.decode('bi5').encode('utf8') 但就会出现编码失败 而这些奇怪字元在Chrome上可正常显示,在Edge上会变缺字,这两个字也无法贴上批踢踢 若用Excel查,第一个字在Excel上用code查是64386,第二个字的code是63(相当於缺字) 想请问这些奇怪的字元是因为原本就不在unicode或big5字元集里头吗? 因为某政府网页中有这两个怪字的数量不低,我无法以个案处理, 不知道是否有什麽办法可以正常处理,感谢 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.115.117.188
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1548928865.A.0C1.html
1F:推 eight0: 试试 big5-hkscs? https://is.gd/3FFpLq 01/31 18:4
谢谢,我再试看看 [更新]谢谢,用这个编码成功了XD
2F:推 f496328mm: code贴来看看 01/31 19:30
因为这个网页一开始会有随机验证码,後续还有一些反爬机制, 我暂时还不想在旧课题未完前面对一堆新课题,所以把我需要的网页先存在本机端, https://1drv.ms/u/s!AuQERVaW1DVCgv4lwTnpEymSIN0ORQ 例如以上这个档就有怪字(big5编码,需下载,直接用OneDrive会以unicode开出乱码) 程式码如下: from lxml import etree,html with open('147.htm','rb') as f: page = f.read() tree = html.fromstring(page) # 怪字前元素,可定位 建照码 = tree.xpath('//td[contains(text(),"(105)")]')[0].text # 怪字後元素,无法定位 地号 = tree.xpath('//td[contains(text(),"基地概要")]')[0].text print(+建照码+' '+地号)
3F:推 BZnoo: BIG-5尚有着名的许功盖问题,也值得研究一下 XD 01/31 20:22
谢谢,这个好像有点深,我再慢慢研究XD ※ 编辑: liquidbox (59.115.117.188), 01/31/2019 21:09:58
4F:推 shala: str不能decode吧。要先encode再decode 01/31 21:05
5F:推 shala: 网页是utf-8,应该用utf-8编码就可以输出了 01/31 21:07
※ 编辑: liquidbox (59.115.117.188), 01/31/2019 21:14:15
6F:→ f496328mm: 你存下来就是乱码了 01/31 23:24
7F:→ f496328mm: 你乾脆直接给网址,说不定是你存的问题 01/31 23:24
8F:推 ckc1ark: 兆峯建筑师事务所 不过看起来档案用的也不是big5-hkscs 02/01 17:22
10F:→ ckc1ark: 这个就是big5-hkscs了 02/01 17:36
11F:→ ckc1ark: 感觉是你这边抓的网页编码已经出问题 02/01 17:37
我是直接对着连结右键另存新档,把一个个的.htm抓下来, 过程中似乎没有可以调整编码的机会,但仔细想想,您说的有道理, 因为我在抓下数百个档案时确实发现一直遇到编码问题 绝大部份似乎可以用big5-hkscs解决,但少数无法的就直接用人工了XD ※ 编辑: liquidbox (36.227.169.167), 02/03/2019 10:27:04
12F:推 ckc1ark: 像你缺的字应该是 兆峯建筑师事务所的峯 正确的big5-hksc 02/04 12:59
13F:→ ckc1ark: s编码是我贴的这篇才对 你贴的用hkscs解出来不是峯这个字 02/04 12:59







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP