作者hareion08 (巨蟹)
看板Programming
标题[问题] 请教网页爬虫的技术
时间Sat Apr 4 11:12:25 2015
想请教比价网站的爬虫
输入关键字 自动去pchome 爱买 露天爬取资料呈现
html颇析跟纪录资料库 我做过
想问的是 关於"更新"的部分
使用者第二次再查询
还要每个页面都跑过一次看有没有更新(降价)?
还是有什麽技术方法可以只爬取有更新过的网页
使用的语言: PHP/C#/ASP.NET
--
Sent from my Windows
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.253.18.183
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Programming/M.1428117147.A.997.html
1F:推 Masakiad: 意思是在爬之前就依照「是否为更新过的p 39.9.70.92 04/04 14:00
2F:→ Masakiad: age?」条件决定是否要爬吗 39.9.70.92 04/04 14:00
3F:→ hareion08: 是的,不然就要每页都爬很没效率~ 111.253.18.183 04/04 16:33
4F:→ walelile: 看对方有没有RSS之类的 不然你也只能去 61.230.153.86 04/04 17:59
5F:→ walelile: 爬 再来就是看他更新频率决定你爬的频率 61.230.153.86 04/04 17:59
6F:→ walelile: 不然就去爬人家比价网站XDD 61.230.153.86 04/04 18:00
7F:推 leicheong: 用Head verb去开那页面找Last-Modified 14.199.38.124 04/04 21:09
8F:→ leicheong: header吧 (虽然也不一定会有) 14.199.38.124 04/04 21:11
9F:→ hareion08: 感谢…看来是碍於协定没有其他方法 111.253.18.183 04/05 00:25
10F:→ tonytonyjan: 关键字:freshness and age 114.47.41.6 04/28 02:44