作者leondemon (狗狗)
看板Python
标题[问题] 有办法知道网页的建档时间吗?
时间Wed Jan 13 23:26:17 2010
我将某网站产品资讯的网页通通下载下来
也就是先去Parse所有产品的List以及各个产品网页的连结
然後再针对每个产品去下载网页资讯 并储存再本机电脑硬碟上
但我需要长久使用这样的database并且随时注意是否有更新
若是先去urlopen所有连结 并read网页资讯再与已下载建档的比对 似乎不太好
担心下载流量太大而被封锁
所以目前是希望先去检查产品线的List是否有变动(有新产品或是产品停产而被移除)
另外持续供货的既有产品 则打算先去检视产品连结的网页是否有更新 再决定是否读网页
但是我不知道要怎麽去获得网站上网页修改的时间及日期资讯
也不知道要从何着手 希望高人能指点
万分感激
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.77.52.127
※ 编辑: leondemon 来自: 203.77.52.127 (01/13 23:27)
※ 编辑: leondemon 来自: 203.77.52.127 (01/13 23:29)
1F:→ AndCycle:看主机回传的header有没有Last-Modified的栏位 01/13 23:44
2F:→ leondemon:是html的header吗?还是...? 抱歉 我不太懂 >"< 01/13 23:53
3F:→ os653:去看 dive into python 关於 http 那章,网路上有免费中文版 01/14 01:24
4F:→ os653:刚好有说到如何判断网页更新,Last-Modified,ET-tag 那些 01/14 01:24
5F:→ os653:没记错的话,他的范例好像就已经符合你的需求罗 01/14 01:26
6F:→ leondemon:好~ 我会去找看看 感谢两位分享资讯 01/14 20:28