作者PsMonkey (痞子军团团长)
看板CodeJob
标题Re: [讨论] 这个有可能达成吗? 谢谢
时间Sun Oct 30 12:56:02 2011
※ 引述《k43582 (crab)》之铭言:
: 您好
: 监测某一个网站 当网站更新时
: 我有办法获得更新处的web page所对应的URL吗?
: 附上说明文件http://www.megaupload.com/?d=6AQCBESD
: 有高手可以接下吗..
: 钱可以讨论
: 谢谢!
: 推 bestwishes:不太懂 说明文件中URL没有变啊 用CURL重抓不就好了? 10/29 23:39
: → k43582:当只有子网页更新就给我对应的URL 不要给root那个URL 10/30 00:11
: 推 PsMonkey:你是要对付 internet 所有网站,还是特定网站? 10/30 00:25
: → k43582:八成左右的网站 谢谢 10/30 10:35
对不起,我不是高手
只是看了一下原 po 的文章与推文
我想还是写点东西,帮案主省点时间,应该也可以帮接案方省点时间
现在网路上有多少「网站」(先跳过明确的网站定义)
用最保守的算法,就当 1 亿吧
八成也就是八千万个网站
好,其实考虑背後系统的话,也没有这麽多
各类 BPS、CMS 架出来的可能占了不少比率
另外加上如果有 RSS 之类的辅助,那应该会快乐不少
所以,就算 100 种好了(因为我很喜欢《100 种生活》,OH-YEAH!)
这 100 种「网站」,每一种出血大放送
平均台币 1K 就帮你 fetch/parse 好
你就要准备 100K
这还没有算为了後续 mining 所作的前期准备、塞资料库
能避开基本 ban ip 的排程系统....
这类系统分析、系统架构之类的东西
(反正前面的 code 都这麽出血大放送了,这些就当撒必死?)
硬体 resource 的部份总不能要接案方负责吧?
所以你还要有爆炸大的频宽跟爆炸大的硬碟
跟爆炸快的机器跑 Database
这样才有办法对付网路上八成左右的网站
(当然,也可以一句「套分散式系统」来打发掉,反正出血大放送 XD)
如果你 or 其他高手嫌弃上面的说法太专业 or 太不切实际
那改个简单、商业版的说法
假设 Google 现在只有 1/10 的 resource 在处理 search engine
你没有要作内容分析,所以就当成只有 search engine 的 1/100 功能
加上你又只打算对付八成的网站
我是不知道 Google 的资金是多少
不过上头的比率乘起来是 1/10 * 1/100 * 4/5 = 4/5000
再加上大家都在 CodeJob、都在台湾拼经济的交情,再给你乘着 1/10
五万分之四个 Google...
====
虽然我只是无聊来练打字
但我真的没有要酸人的意思... Orz
--
钱锺书:
说出来的话
http://www.psmonkey.org
比不上不说出来的话
Java 版 cookcomic 版
只影射着说不出来的话
and more......
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.25.9.199
3F:→ k43582:比较网页後 当有一条新闻出来 就丢出子网页(更新的新闻) 10/30 15:34
4F:→ k43582:有网路爬虫帮忙sitemap也没救吗@@ 10/30 15:36
5F:→ PsMonkey:你的八成网站里头有多少有 sitemap... 10/30 16:19
6F:→ PsMonkey:更不用说 sitemap 其实也没提供什麽资讯 10/30 16:21
7F:→ bitlife:k大你举的新闻网站,不就是有 sitemap 也不知道它更新吗? 10/30 16:22
8F:→ bitlife:一般 sitemap 不包含动态产生的部分. 10/30 16:22
9F:→ k43582:b大 我不太了解 我那个有sitemap?? 谢谢 10/30 16:31
10F:→ bitlife:我的意思是,你第2行推文的网站,就算有sitemap指到它,你也 10/30 17:26
11F:→ bitlife:不知道该页内含的连结是否有更动. 10/30 17:27
12F:→ k43582:会先进行主网页的比对 发现子网页变动 再去下载子网页部分 10/30 17:29
13F:推 Prius:网站数目,全世界已经超过 2 亿,数字还不断飙升 10/30 17:38
14F:→ whaskey:仅就你提供的连结的话你需要的是RSS 10/30 18:27
15F:→ whaskey:在来如果你只是要应付一般的静态网页的话,只要不被BAN 10/30 18:28
16F:→ whaskey:要做到是有可能的,如果像动态产生出来的网页,甚至是用 10/30 18:29
17F:→ whaskey:AJAX只做部分更新的话,你很难去确认是否有更新。 10/30 18:29
18F:推 k43582:所以动态网页以我的要求是不可能的? 谢谢 只能文字网页 10/30 18:39
19F:→ thitbbeb:单纯有新的新闻就更新似乎还可行,但不知你需求的detail 10/30 19:15