作者MrAshan (一輩子)
看板RegExp
標題[問題] 抓取網頁資訊
時間Thu Oct 30 00:26:20 2008
<li class=g><h3 class=r><a
href="
http://mi.nou.edu.tw/workshop/workshop_910718.htm"
以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁
我表示式寫成
(?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
沒辦法抓取我要的網頁
但若我改成
(?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來
我只要單一乾淨的主網頁 不要子網頁
有沒有 辦法??
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 202.132.194.89
1F:→ MrAshan:沒人回答我的問題-_- 11/02 00:29
2F:→ giacch:最後那表示式, 前面想辦法把class=g的條件加上去試試... 11/02 03:22
3F:→ MrAshan:試了目前在第一頁擷取網頁是正常但在第二頁一樣會有子網頁 11/02 03:41
4F:→ MrAshan:又會跟之前一樣 相同性的問題又出現? 11/02 03:42
5F:→ giacch:可以提供樣本作測試嗎..? 我找的google連一行都出不來... 11/02 03:44
6F:→ MrAshan:找Crawler相關資訊 會對你有幫助:) 11/07 00:28