作者poopoo888888 (阿川)
看板Python
标题[问题] 如何将网站上的数十笔资料一口气载下来?
时间Thu Aug 11 17:22:07 2011
大家好
小弟学web programming一阵子了
是学Google App Engine并使用Python写
最近小弟受到一位长辈所托
希望我将司法院法学资料检索系统里面的一部分判决书载下来 作进一步data mining之用
http://jirs.judicial.gov.tw/Index.htm
例如:判决书查询→台北地方法院、民事、检索「保护中心」
则会出现约100份判决书
请问要怎麽样将这100份判决书载下来呢?
小弟之前有使用过Beautiful Soup 知道它可以做parse的动作
是否就是利用它来载判决书呢?
还是这件事有其他适合的工具可以使用
并不需要Beautiful Soup?
烦请各位大大指点迷津 谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.231.24.204
1F:→ suzuke:我直觉想到是urllib这一类的加上HTMLParser? 08/11 23:54
2F:推 shaopin:对呀, 应该很简单, urllib2..加file.. 08/12 14:57
3F:→ shaopin:抓无名小站图片都用这招(误) 08/12 14:58
4F:→ kilfu0701:之前写过spider抓大量网页 也用urllib2+beautiful soap 08/12 16:26
5F:推 lovelycateye:urllib + regex 或许是一个方法? 我是这样做啦 08/13 00:19
感谢各位大大 用urllib2加上BeautifulSoup便解决
※ 编辑: poopoo888888 来自: 61.231.24.139 (08/14 09:58)
8F:推 hsnu114444:urlfetch 08/16 10:21
9F:推 kynix:pyquery 用了你会爱上它 08/16 11:24