作者sbox1000 (Su River)
看板PHP
标题[请益] 请教php爬虫爬分页的方式
时间Sat Apr 1 18:47:06 2017
想撷取图片的网址为
http://www.bsobs.com.tw/photos/index/y/2017/m//page/
目前这支程式可以跑出第一页的图片结果
如果要跑出所有分页的结果我应该怎麽写呢呜呜呜
跪求高手救援,小弟只是新手阿阿~~~
<?php
//引入套件
require('C:\snoopy\Snoopy.class.php');
require('C:\phpquery\phpQuery\phpQuery.php');
//download url
$url = "
http://www.bsobs.com.tw/photos/index/y/2017/m//page/";
//模仿正常人
$snoopy->agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36";
$snoopy->referer = "
http://www.bsobs.com.tw/photos/index/y/2017/m//page/";
//撷取HTML
$snoopy = new Snoopy();
$html = $snoopy->fetch($url)->getResults();
//筛选img class
phpQuery::newDocumentHTML($html);
$images = pq('.photos_mobile img');
foreach($images as $image){
preg_match_all("#(
http://images/babyphoto/\w+.JPG)#", $html,
$matches);//套用原图网址
echo $image->getAttribute('src') ."<br>";
}
?>
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.75.138.247
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PHP/M.1491043629.A.2C7.html
1F:→ JustGame: 2017/m//page/1 04/01 19:41
2F:→ JustGame: 2017/m//page/2 04/01 19:41
3F:→ JustGame: 以此类推应该就结束了吧 04/01 19:42
4F:→ sbox1000: 我知道啊啊啊啊,但就是不知道怎麽写呜呜呜呜 04/02 01:43
5F:推 hareion08: 先在列表页抓分页那个标签看最大值多少再用for回圈跑 04/02 07:55
6F:→ hareion08: 分页 04/02 07:55
7F:→ hareion08: 或while 要抓的内容=空时终止 04/02 07:56
8F:→ hareion08: 记得要sleep... 04/02 07:57