作者hareion08 (巨蟹)
看板Programming
標題[問題] 請教網頁爬蟲的技術
時間Sat Apr 4 11:12:25 2015
想請教比價網站的爬蟲
輸入關鍵字 自動去pchome 愛買 露天爬取資料呈現
html頗析跟紀錄資料庫 我做過
想問的是 關於"更新"的部分
使用者第二次再查詢
還要每個頁面都跑過一次看有沒有更新(降價)?
還是有什麼技術方法可以只爬取有更新過的網頁
使用的語言: PHP/C#/ASP.NET
--
Sent from my Windows
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.18.183
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Programming/M.1428117147.A.997.html
1F:推 Masakiad: 意思是在爬之前就依照「是否為更新過的p 39.9.70.92 04/04 14:00
2F:→ Masakiad: age?」條件決定是否要爬嗎 39.9.70.92 04/04 14:00
3F:→ hareion08: 是的,不然就要每頁都爬很沒效率~ 111.253.18.183 04/04 16:33
4F:→ walelile: 看對方有沒有RSS之類的 不然你也只能去 61.230.153.86 04/04 17:59
5F:→ walelile: 爬 再來就是看他更新頻率決定你爬的頻率 61.230.153.86 04/04 17:59
6F:→ walelile: 不然就去爬人家比價網站XDD 61.230.153.86 04/04 18:00
7F:推 leicheong: 用Head verb去開那頁面找Last-Modified 14.199.38.124 04/04 21:09
8F:→ leicheong: header吧 (雖然也不一定會有) 14.199.38.124 04/04 21:11
9F:→ hareion08: 感謝…看來是礙於協定沒有其他方法 111.253.18.183 04/05 00:25
10F:→ tonytonyjan: 關鍵字:freshness and age 114.47.41.6 04/28 02:44