作者seedman (cc)
看板Python
标题[问题] lxml抓资料有错误
时间Mon Apr 2 17:17:27 2012
我想用lxml中的xpath语法从imdb的中抓出演员演过的电影
演员名演过的电影名单那段的原始码是
<div style="display:block;">
<div class="filmo-row odd" style=""> ... </div> <- Actor里第一部电影
<div class="filmo-row even" style=""> ... </div>
...
</div>
但是我用下面的抓法
url = '
http://www.imdb.com/name/nm0000226/'
f = lxml.html.parse(url)
f.xpath('//div[@style="display:block;"]/div')
永远都只能抓到第一部电影的资料
不知道是哪里搞错了?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 98.208.56.49
1F:推 darkgerm:我猜是这个 <div class="clear"/></div> 04/02 17:52
2F:→ darkgerm:多一个 / 让那个 div 被误认成空元素 04/02 17:53
3F:→ darkgerm:出现在 filmo-row even 的上几行… 04/02 17:54
4F:→ seedman:真的是这样 感谢!!!! 我卡了很久 T_T 04/02 18:38
5F:推 swpoker:因为HTML是很松散的~所以浏览器能显示也不代表是正确的 04/03 10:41