作者KSJ (阿真)
看板Python
标题Re: [问题] 一个抓资料的问题
时间Wed Nov 2 20:55:25 2011
前文吃光光
在cmd下看到的都是乱码
无论用big5 utf-8 cp950去对number做decode或是encode都没用
想请问怎麽会这样呢?
是因为re无法处理中文吗?
烦请大大们解惑
谢谢!
cmd是指黑底的吗?? 黑底的应该比较容易正常说 虽然都转成unicode就没事了
我测试直接urllib2抓网页 有下面的结果
http://dl.dropbox.com/u/24628527/TEST.PNG
用unicode来看都还蛮正常的 ( 用str不正常就不提了... windows oooos)
然後我也用了re (想学一直没空 我抄你的程式码) 有以下的结果
http://dl.dropbox.com/u/24628527/test2.PNG
当然在黑底的cmd也是没问题
上面是在 windows xp
python 2.5.4 测试的
蛮好奇你怎麽抓不出来@_@a
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.231.27.129
1F:→ suzuke:先说你是在哪个系统做吧? windows or linux 11/01 00:19
2F:推 KSJ:推楼上XD 11/01 00:26
3F:→ pm2002:应该是windows吧,cmd下unicode会是乱码没错 11/01 02:21
不好意思忘记讲 我是用windows XP
python 2.5
4F:推 cobrasgo:我猜是text editor的关系 11/01 03:47
我是用notepad++ 请问text editor如何影响这部份呢?
5F:推 NolandTA:先encode成latin再decode成cp950试试看 11/01 10:40
不行耶 用latin去encode会失败
※ 编辑: poopoo888888 来自: 218.166.198.127 (11/01 19:24)
6F:→ KSJ:我用WINDOW7 Python2.5.4 urllib2 在cmd下正常 idle下乱码 11/01 21:57
7F:→ KSJ:可是decode("big5","ignore") 就可以了 你要不要试试? 11/01 21:58
8F:→ KSJ:再问一下 是只要是中文都乱码?? 11/01 22:10
很谢谢你 但出来还是乱码耶
只有抓这个网页是乱码 其他地方的中文都没问题
※ 编辑: poopoo888888 来自: 61.231.27.37 (11/02 19:10)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.63.202