作者brandonron (假嗨)
看板PHP
标题[请益] php 爬取网页内容[学习新手]
时间Wed Oct 23 13:52:24 2013
由於小弟以前都没接触过php语法,又迫於被人催促要快实现出结果
目前能力还是在基本的部分,以及如何连接资料库并取出资料库资料
想要爬取全台湾中油加油站的地址、7-11地址、与邮局地址放入资料库中
但是中油(其他好像也有防扒)网页有防爬取的功能,所以我这部分是存放成"htm"l方式
来试着爬资料的<title>。
以下网址内的商家地址是我想抓取的内容(似乎都得先将网页另存成html档)
中油的内容我想抓取各县市的"县市"跟"地址"的内容
中油:
http://www.cpc.com.tw/big5_bd/tmtd/station/searchstn-1.asp
7-11的内容我想抓所有县市的"门市地址"的内容
7-11:
http://www.i-write.idv.tw/life/info/7-11/7-11.html
邮局的内容我想抓所有县市的"局址"的内容
邮局:
http://www.post.gov.tw/post/internet/i_location/index.jsp?ID=1301
不知道版友能否提供我爬取范例,让我边参考边学习,加快学习php爬网并实现出来
或是提供一个小小可运作的范例让我了解并且揣测程式码
感激不尽~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.127.218.68
1F:推 LaPass:google: spider php 10/23 15:08
2F:→ LaPass:不过我不认为这个用php会比较快.... 10/23 15:09
3F:推 alpe:如果已经有写好的程式, 不会比较慢拉, 但node.js爬真的方便 10/23 15:18
4F:→ alpe:尤其有selector可以用 10/23 15:19
5F:→ brandonron:node.js 我第一次听到,我看一下是什麽好了 10/23 18:39
6F:→ brandonron:想问一下,Node.js的优势是在哪?(与其他语言比较) 10/23 21:38
7F:→ brandonron:搜寻後发现有本书书名写Google御用网页语言 10/23 21:39
8F:→ brandonron:所以目前网页语言的学习,各位会建议学Node.js跟HTML5? 10/23 21:41
9F:→ s540421:现学现用的话不建议用这种新兴语言,一方面不稳定,客户不 10/23 23:12
10F:→ s540421:见得允许你用这些东西,再说共同开发又是另一问题 10/23 23:13
11F:→ s540421:可以学起来备用,不过要出场还是需要学其他工具 10/23 23:13
13F:→ KC73:试试看 snoopy ~ 10/24 01:59
14F:→ danny8376:nodejs并不新 出来好几年了 更别说不稳定 10/24 12:39
15F:→ danny8376:不过要说的话 对台湾这来说是外星科技就是www 10/24 12:40
17F:→ world294:nodejs 可以执行需 run 比复杂的 js 页面吗? 11/06 11:14