[问题] 网页中部份中文字元影响爬虫

时间Thu Jan 31 18:01:02 2019

大家好，我是Python自学者，虽然习惯自己上网找答案，但很多基本观念可能没有学到或学好，所以现下出了一个我不知如何在网路上找答案的问题我在爬某政府网页时，发现若网页中包含某些中文字元，如 https://ctext.org/dictionary.pl?if=gb&char=%E3%95%A1 https://ctext.org/dictionary.pl?if=gb&char=%F0%A4%A5%82 Python就会无法读取该字元之後的网页原始码，以致在该字元前的元素可正常定位，但该字元後的元素用xpath都定位不到该网页有写charset=big5，所以我试着先把网页原始码重新编码，如： str.decode('bi5').encode('utf8') 但就会出现编码失败而这些奇怪字元在Chrome上可正常显示，在Edge上会变缺字，这两个字也无法贴上批踢踢若用Excel查，第一个字在Excel上用code查是64386，第二个字的code是63（相当於缺字）想请问这些奇怪的字元是因为原本就不在unicode或big5字元集里头吗？因为某政府网页中有这两个怪字的数量不低，我无法以个案处理，不知道是否有什麽办法可以正常处理，感谢 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.115.117.188 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1548928865.A.0C1.html

1^F：推 eight0: 试试 big5-hkscs? https://is.gd/3FFpLq 01/31 18:4

谢谢，我再试看看 [更新]谢谢，用这个编码成功了XD

2^F：推 f496328mm: code贴来看看 01/31 19:30

因为这个网页一开始会有随机验证码，後续还有一些反爬机制，我暂时还不想在旧课题未完前面对一堆新课题，所以把我需要的网页先存在本机端， https://1drv.ms/u/s!AuQERVaW1DVCgv4lwTnpEymSIN0ORQ 例如以上这个档就有怪字（big5编码，需下载，直接用OneDrive会以unicode开出乱码）程式码如下： from lxml import etree,html with open('147.htm','rb') as f: page = f.read() tree = html.fromstring(page) # 怪字前元素，可定位建照码 = tree.xpath('//td[contains(text(),"(105)")]')[0].text # 怪字後元素，无法定位地号 = tree.xpath('//td[contains(text(),"基地概要")]')[0].text print(+建照码+' '+地号)

3^F：推 BZnoo: BIG-5尚有着名的许功盖问题，也值得研究一下 XD 01/31 20:22

谢谢，这个好像有点深，我再慢慢研究XD ※ 编辑: liquidbox (59.115.117.188), 01/31/2019 21:09:58

4^F：推 shala: str不能decode吧。要先encode再decode 01/31 21:05

5^F：推 shala: 网页是utf-8，应该用utf-8编码就可以输出了 01/31 21:07

※ 编辑: liquidbox (59.115.117.188), 01/31/2019 21:14:15

6^F：→ f496328mm: 你存下来就是乱码了 01/31 23:24

7^F：→ f496328mm: 你乾脆直接给网址，说不定是你存的问题 01/31 23:24

8^F：推 ckc1ark: 兆峯建筑师事务所不过看起来档案用的也不是big5-hkscs 02/01 17:22

9^F：推 ckc1ark: http://yilan-archi.org.tw/show_member.php?no=00107 02/01 17:36

10^F：→ ckc1ark: 这个就是big5-hkscs了 02/01 17:36

11^F：→ ckc1ark: 感觉是你这边抓的网页编码已经出问题 02/01 17:37

我是直接对着连结右键另存新档，把一个个的.htm抓下来，过程中似乎没有可以调整编码的机会，但仔细想想，您说的有道理，因为我在抓下数百个档案时确实发现一直遇到编码问题绝大部份似乎可以用big5-hkscs解决，但少数无法的就直接用人工了XD ※ 编辑: liquidbox (36.227.169.167), 02/03/2019 10:27:04

12^F：推 ckc1ark: 像你缺的字应该是兆峯建筑师事务所的峯正确的big5-hksc 02/04 12:59

13^F：→ ckc1ark: s编码是我贴的这篇才对你贴的用hkscs解出来不是峯这个字 02/04 12:59

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 网页中部份中文字元影响爬虫

热门看板

赞助商连结