作者abcg5 (nothing)
看板Perl
标题[问题] 抓网页中的comment!
时间Mon Feb 16 15:32:06 2009
首先 我想用perl来抓digg
里面的news和news的全部comments
news我知道怎抓~
但是news的comments我就不知道要如何抓了
情况就像这个网址的例子
http://digg.com/2008_us_elections/Digg_This_If_You_Voted_For_Obama_2
他只有显示前50个comments(原始码内也只有1-50的comments)
就算我手动点选"show 51-100 of 1665 discussions"
(此时的原始码还是只有1-50的comments)
问题来了~~
这样子 每则news我就只能抓到前50个comments 分析上将会失真...
所以 像这种使用class的动态网页~
改变显示内容时 网址不跟着改变!
(comments都在原始码 <div class="comment">之後)
这种情况 perl要如何处理(这算是deep web的问题吗??)
才能抓到例子中 1665个comments!?
请知道如何处理的高手好心教我一下! ^^
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.245.199