作者synd (你今天夯了没?)
看板Python
标题Re: [问题] 请问一下unicode的问题
时间Fri Oct 2 23:10:54 2009
借用这个很久以前的标题...
最近我在写一个程式
其中会需要把ptt上的文章转成unicode
一般的中文没什麽问题
但若遇到中日文混用的文章,以big5去解码会出现错误
像这样:
UnicodeDecodeError: 'big5' codec can't decode bytes in position 41-42:
illegal multibyte sequence
我先暂时用忽略错误的方式进行
unicodeLines.append(unicode(textline,'Big5','ignore').encode('utf8'))
只要别遇到中日文混用的都没啥问题
只是日文字的部份会乱掉
这样问题有什麽比较好的解法吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.115.118.109
1F:→ yungyuc:Big5hkscs 10/02 23:25
2F:推 buganini:ptt上的很多是UAO的 10/03 01:15
3F:→ synd:先用big5hkscs解决,虽然还是会掉一些字,不过好多了 10/03 11:04