作者WandererM (WM)
看板Perl
标题[请益]请问如何将HTML里面的Unicode Decimal转回UTF-8字元
时间Sat Feb 9 01:35:29 2008
请问各位板上的先进高手,
我想要抓取一个Big5编码HTML里面的资料,
可是里面有很多Unicode字元使用了Decimal的方法来表示,
像是这样: 葉
我目前是先用系统里面的iconv把它转成UTf-8的格式,
system("iconv -f big5 -t UTF-8 file1 > file2");
这时候里面那些葉的Unicode还没有变动,
然後用HTML::TreeBuilder跟HTML::Element去处理,
也有use Encode; use utf8;
把抓到的资料print出来以後,
很神奇的发现那些Unicode Decimal有些被转回正确的日文假名了,
但是有些却变成了乱码,
想请问各位,有没有什麽方法能把档案内的所有葉这类的Unicode,
转回UTF-8格式的字元?
我想这样再丢给HTML::TreeBuilder应该就不会出问题了Orz
--
▄▄A WM Should Not Know Anger, ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄▄▄▄▄▄▄▄▄ Nor Hatred,▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄▄▄▄▄▄▄▄▄▄▄Nor Love. ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄ My home: ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄ http://kidwm.net/ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.244.94
※ 编辑: WandererM 来自: 140.113.244.94 (02/09 01:37)
1F:推 in2:HTML::Entities 02/09 16:24
2F:→ WandererM:感谢in2姐姐的回答XD 02/09 22:39