作者imce (蜥蜴)
看板perl
标题Re: [问题] 请问抓网页并去除html tag後 出现乱码?
时间Fri Oct 26 08:37:32 2007
※ 引述《senhuo (努力吧)》之铭言:
: 请问还有更快的方式吗?
: 这样是先做判断 如果是uft再做decode
: 不是的话就直接print出来
: 不知道有没有更好、更快的作法~
更快更好应该是没有,毕竟都要用猜的,我觉得这样写比较简洁
管他是utf-8还是big5,统统decode再encode一次
use WWW::Mechanize;
use Encode;
use Encode::Guess;
my $http= "
http://blog.roodo.com/judie35/archives/270979.html";
my $mech = WWW::Mechanize->new();
$mech->get($http);
my $enc = guess_encoding($mech->content(), qw/big5-eten utf8/);
my $html = encode ("big5-eten",decode($enc->name, $mech->content()));
print $html;
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 60.250.75.176
※ 编辑: imce 来自: 60.250.75.176 (10/26 08:38)
1F:推 senhuo:这个方法赞~谢啦i大 10/26 10:46
2F:推 senhuo:可是刚才跑似乎不行耶... 10/26 11:58
3F:→ senhuo:@@ 10/26 11:58