作者mosquito520 ( )
看板Perl
标题Re: [问题] 抓取网页问题
时间Mon Apr 7 22:16:14 2008
以我的来说
Firefox:
Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-TW; rv:1.8.1.13) Gecko/20080328
Firefox/2.0.0.13 (pigfoot)
IE6:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
所以我才说Mozilla/4.76看起来有点怪...
可能是我少见多怪XDDD
不过我实际上碰过的情况,
某些web hosting会挡掉特殊的user agent,
所以我才建议你改agent看看,
随便抄一组常见的上去用。
而LWP::simple
我不确定他的agent是啥,
他本身也没提供更改agent的method
这只是个经验啦,不过如果你捞到网页了就好那也没差:)
※ 引述《travellu (旅行)》之铭言:
: 欲抓取网页 http://www.dmoz.org/
: 抓网页的副函式程式码如下:
: sub grasp_searchresult() {
: my ( $query ) = @_;
: my $browser = new LWP::UserAgent;
: $browser->agent( 'Mozilla/4.76 [en] (WinXp; U)' );
: my $request = q();
: $request = new HTTP::Request( "Get",
: "http://www.dmoz.org/" );
: my $html = $browser->request($request);
: return $html->content;
: }
: 抓出来的东西是空的
: 抓其它网页例如yahoo首页则是没问题
: 不晓得是不是这个网页有什麽特殊的限制?
: 谢谢!
--
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
国 立 联 合 大 学
(理工/电资/管理/技术/客家)院所 招生中
National United University
───────────────────────────────────
首页
http://www.nuu.edu.tw BBS telnet://uun.twbbs.org
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.133.145.202
1F:推 travellu:谢谢了!应该就是挡agent的关系 04/07 23:37