作者zelda312 (song)
看板Python
标题[问题] HTMLParser抓连结应用
时间Tue May 4 23:03:34 2010
大大好
我找到一个程式如下,可以抓取如:<a href="/intl/zh-TW/about.html"> 之内容
可是我想抓的是<a XXX> XXXX </a> 这样子的内容
该怎麽做比较好呢? (XXXX里也可以有其它tag)
#!/usr/bin/python
# -*- coding: utf-8 -*-
import HTMLParser
import urllib
import sys
#定义HTML解析器
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
#if name == 'href':
print value
print self.get_starttag_text()
#创建HTML解析器的实例
lParser = parseLinks()
#打开HTML文件
lParser.feed(urllib.urlopen("
http://google.com.tw").read())
lParser.close()
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.133.3.165
1F:→ a761007:最近刚好在玩 我是用lxml etree.parse()建立etree 然後再 05/05 00:26
2F:→ a761007:用etree.xpath()去找你要的东东 05/05 00:27
3F:→ kenzou:你可以试试BeautifulSoup 05/05 00:30
4F:推 okd:lxml 里面也包含beautifulsoup 的parser 两个都不错用 05/05 01:42
5F:推 kkc:推lxml~~ 05/05 02:21
6F:推 zwai:我也是用lxml 好用 06/15 21:11