作者shadowjohn (某人睡醒就发文)
看板PHP
标题Re: [请益] parser 文字
时间Thu Sep 25 16:52:09 2014
※ 引述《woominin (没事就好)》之铭言:
: 不好意思,小弟刚接触php不久
: 有关於parser的问题想要询问一下
: 比方说,我有一个网页想要parser
: http://house.ilantravel.com.tw/
: 而这个网页最下方有一堆民宿的文字超链结
: 请问我要怎麽parser这些超链结的文字部份呢
: 检查了原始码,比方说
: <td><span class="s1">.</span></td>
: <td><font size="2">
: <a href="bnb/kite.htm" target="_blank">风筝小木屋民宿</a></font></td>
: 这是其中一个
: 我要怎麽parser出来 风筝小木屋民宿 这串文字呢 ??
: 我有用 simple_html_dom.php
: $dom = file_get_html('http://house.ilantravel.com.tw/');
: $result = $dom->find('a');
: foreach($result as $v) {echo $v->href . '<br>';}
: 这样只能parser出超链结,但无法辨认,哪个链结是谁
: 麻烦前辈解惑,谢谢
<?php
include '/var/www/html/inc/simplehtmldom/simple_html_dom.php';
$dom = file_get_html('
http://house.ilantravel.com.tw/');
$result = $dom->find('a');
foreach($result as $v) {
$title = $v->innertext; // 用这个直接抓 <a xxx>这里的内容</a>
echo "(" . $title .")" . $v->href . "\n";
}
(关於我们)aboutus.htm
(宜兰民宿)
http://bnb.icsp.com.tw
(宜兰住宿)
http://www.goez.tw
(宜兰民宿)
http://house.ilantravel.com.tw
(花莲民宿)
http://house.netete.com
(台东民宿资讯网)
http://www.ttbnb.com.tw
(宜兰民宿 )
http://www.ilanbnb.tw
(花莲民宿)
http://www.bnb.idv.tw
(宜兰民宿)
http://www.ilanbnb.com.tw
(台东民宿)
http://www.travel123.com.tw
(宜兰美食)
http://www.399.com.tw
(礁溪温泉)
http://jiaoxi.ilantravel.tw
(罗东夜市 )
http://luodong.ilantravel.tw
(宜兰包栋民宿 )
http://www.goyilan.com
(童玩节)
http://child.ilantravel.com.tw/
(宜兰生活)
http://life.goez.tw/
(罗东住宿)
http://lotong.yilanminsu.com.tw/
大概会长这样吧~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.134.48.253
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/PHP/M.1411635136.A.D64.html
1F:→ shadowjohn: 可以加上 strip_tags、str_replace 去掉多余的东西 09/25 16:53
3F:→ shadowjohn: Quick start 就有教学了,很简单~ 09/25 16:55
4F:推 powyo: 他那里面有很多不需要的连结 这样会全部抓到吧 09/25 16:58
5F:→ shadowjohn: 这时搭配 is_string_like 就解决了~_~ 09/25 17:02
6F:→ shadowjohn: simplehtmldom 就是设计的像jquery好选,然後再分 09/25 17:03