作者arlu (arlu)
看板Python
标题[问题] 抓取网页遇到的问题2
时间Fri Aug 27 15:45:53 2010
大家好,
另外有一个问题想请教各位。
假设我要用HTMLParser抓网页的资料,
我知道其内建有几个函数可以使用,像是handle_startendtag、handle_starttag、
handle_endtag、handle_data…等。
假设我想要抓的是以下"span title="symbol"後面的configuration(即data)
<span title="symbol">configuration</span>
应该要如何操作?
因为我发现handle_starttag好像只单纯处理tag,
而handle_data又是单纯处理tag之间的data,
有没有办法依据我想要的tag样式去存data呢?
谢谢!
Best Regards
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 60.251.19.66
2F:→ StubbornLin:tree.xpath("//span[@title='symbol']/text()") 08/27 16:45
3F:→ arlu:喔喔!!感谢,努力研究 lxml中~ 08/30 10:24