作者regina850 (85000)
看板CodeJob
标题[发案] 希望有人能帮我写一个程式去抓取网页中我所要的文字资讯
时间Thu Apr 8 01:43:20 2010
凡是「*[30m」开始的行,都请使用 Ctrl + y 删除。
请注意:发案人须主动更改标题与内文之案件状态,
案件状态、发案人、联络方式1、有效时间、专案说明为必填项目,
如果对於发案文章格式有不清楚的地方,请参考置底文章:[发案] 发案范例
案件状态:发包中
发案人:何小姐
联络方式1:[email protected]
联络方式2:0919310290
有效时间:2010/04/18(两周内)
专案说明:我希望有人帮我写程式去抓取网页中的资讯,
先将网页html抓下来,html→txt....
写一个程式去抓取我要的关键字,取得关键字输出
最後要汇出excel档案
预算:3000元
接案者要求:希望台北市优先,两周内完成
附注:
(以下内容鼓励结案後填写,可以询问接案人愿不愿意暴光接案身份)
结案意见:
接案人:
评价(0-10):
说明:
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.62.108.227
1F:→ salonliu:最近程式撰写有越来越廉价化的感觉.... 04/08 01:49
2F:→ terrybob:= =同意1楼。啧… 04/08 01:59
3F:推 chicham:可能是会写的人太多了 04/08 02:17
4F:→ regina850:很抱歉... 04/08 02:48
5F:推 yanli2:这个需求很简单. 但价格让我code的慾望都没有.. 04/08 03:04
6F:→ dirtyeye:我要在你的脚上写个 c~o~d~e 字 04/08 03:18
7F:→ regina850:再次抱歉...= =|| 04/08 03:38
8F:推 walker2009:这学校作业等级难度的案子 这价钱感觉还ok吧@@? 04/08 04:45
9F:推 earny:其实我觉得这个案子不简单..有难度...如果不是针对特定网站 04/08 08:39
10F:推 earny:的话....还真的是有难度。 04/08 08:39
11F:推 Dreamer77:就算是作业等级 可是要花时间 那模廉价就没想做的慾望了 04/08 09:20
12F:推 sioo:这个案子3000绝对有人接,如果没人接可以找我,但我在新竹 04/08 11:13
13F:→ regina850:谢谢大家关心,已经顺利发包出去了!谢谢指教^_^ 04/08 19:55
14F:推 gotoo:如果接的跑掉可以找我 我在台北 XD 04/08 20:37
15F:推 Yaiba:楼上.........看的真远... 04/08 20:47
16F:→ regina850:谢谢,大家都好热情!!受宠若惊!!谢谢好多大大给予建议, 04/08 21:45
17F:→ regina850:真的万分感谢! 04/08 21:46
18F:推 hellolucky:我有跟原PO接洽 这东西没这麽难 3K~5K是合理范围 04/08 23:45
19F:→ hellolucky:自己评估 5H赚3K 还不错 看大家怎麽想啦~XD 04/08 23:46
20F:→ adrianc:个人习惯 再简单也好 没5K不开IDE (了解需求的成本也考虑) 04/08 23:51
21F:→ adrianc:不过跟本版的市场可能不太符合 所以我也没在本版接过 ^^" 04/08 23:52
22F:→ adrianc:BTW 这支程式如果目标网站不特别的话 2H内差不多 04/08 23:53
23F:→ adrianc:值不值得接?...嗯...只能说大家的风格习惯不同吧 04/08 23:54
24F:推 thinkniht:其实我早上就有看到这篇文章...只是因为自己也有事情 04/09 00:20
25F:→ thinkniht:要忙 不晓得该不该接...後来下班後想看看没人接的话 04/09 00:20
26F:→ thinkniht:我就问看看内容看难度能不能顺利完成 不过已经有人接了 04/09 00:22
27F:→ thinkniht:个人觉得 如果环境的部分要求没有太高 其实这待遇算高了 04/09 00:22
28F:推 lhuan:案子我接的,这价钱还好而已,需求的内容用正规表示法作就好 04/09 01:04
29F:→ lhuan:可是案子的真正问题点在於要把的目标网站 04/09 01:06
30F:→ lhuan:yahoo error999的问题,3000元谁觉的好赚,我发另一个案子 04/09 01:07
31F:→ lhuan:有相关经验的人,这3000好赚且合理,没经验的人,就怕不能结 04/09 01:09
32F:推 hellolucky:所以 是好赚 还是不好赚 有点看不懂....@@" 04/09 01:17
33F:→ DigiPrince:999 直接锁 IP,还不是加 header 就能解决 蛮烦的 = = 04/09 01:22
34F:推 lhuan:好不好赚,就看你有没有相关经验了,就如同资料库编码转换 04/09 01:27
35F:→ lhuan:能不能转是一回事,转超过4G的资料库又是另一回事 04/09 01:27
36F:→ lhuan:再加上要处理可能断掉半个字元的big5转utf-8,又是另一回事 04/09 01:28
37F:→ DigiPrince:所以用 random wait 到底可不可以解决 999? 04/09 01:36
38F:→ lhuan:不行,如果可以的话,用php curl就结案了,用不着.net 04/09 01:45
39F:推 yanli2:999就换Proxy换ip就好.. 04/09 02:32
40F:推 followmeyo:接案的人是看在案主是小姐吗= = 04/09 03:45
41F:→ regina850:我对於这领域不甚了解,但还是谢谢大家关心:) 04/09 13:39
42F:→ regina850:也谢谢许多大大从旁协助,帮我发现许多问题,谢谢大家:) 04/09 13:43
43F:推 masterguy:所以这个案子已经结案了? 04/09 14:14
44F:推 mengjia:谁能用一个ip解error999的问题,我5千跟他买~ :p 04/09 14:41
46F:→ regina850:还没结案,还在等待成果中,谢谢大家:) 04/09 15:52
47F:→ lhuan:要一个IP解error999不难,难在如何和别的程式对接 04/09 16:31
48F:→ lhuan:就算要卖,也没有5千这麽便宜,上一个买的,出六万 04/09 16:31
49F:→ DigiPrince:当然换 Proxy 是 OK... 但是 Proxy list 去哪找比较好? 04/09 17:18
50F:→ DigiPrince:随便找了用感觉不太妥 = =" 04/09 17:18
51F:→ DigiPrince:而且有些是不是还会加 X-Forwarded-For? 04/09 17:19
52F:→ DigiPrince:Yahoo 不知道会不会抓这个... 04/09 17:19
53F:→ mengjia:因为你出3000,所以我出5000:P 所以这个case没有999问题阿 04/09 17:56
54F:→ mengjia:对接是小问题 ~ 我可以自己来 ~我很爱学新东西的 ~ 哈 04/09 17:58
55F:→ lhuan:3000是只给抓下来的html档和处理好的excel档,不给程式 04/09 18:28
56F:→ lhuan:上个案子的对接,server用linux+php,抓网页的是vmware的xp 04/09 18:29
57F:→ regina850:嗯,对!!不用程式,给我我也不懂,我只是要资料而已:p 04/09 20:43
58F:推 deduce:请教一下这个案子想要抓的目标是拍卖还是哪个服务呢? 04/11 12:10
59F:→ regina850:谢谢大家~已经结案啦~谢谢大家协助!!:D 04/12 15:06