作者star2000 (昨夜风)
看板Python
标题[全省] [徵才]撷取网页资料
时间Thu Nov 5 12:42:30 2009
※ [本文转录自 part-time 看板]
作者: star2000 (昨夜风) 站内: part-time
标题: [全省] 撷取网页资料
时间: Thu Nov 5 11:52:07 2009
◎工作时间:(请注明,否则删文警告!)
→一周
◎薪资:(请注明薪资,『面议』、薪水低於95/hr者删文+水桶两周)
(未保障底薪之工作将删文)
→请来信报价
◎薪资发放日:(请注明薪资发放日,否则会删文警告)
程式完成後全额拨放
◎工作内容(请详细填写)
→www.amazon.com和www.amazon.co.jp两网页资料撷取
需求如下:
需两程式可将www.amazon.com及www.amazon.co.jp
上的category及其消费者评论内容结取下来存入资料库
以美国amazon为例,选择electronics後按go
最右手边会有子项目的所有产品
GPS&Navigation有七千多笔资料,我需要此程式能把这七千多笔资料都抓取下来
所需要抓取的内容为price/list price/name/isbn or asin/in stock or not/
release date/total customer review/number of five star/
number of four star/number of three star/number of two star/
number of one star/sale rank1/sale rank category1/sale rank2/
sale rank category2/sale rank3/sale rank category
GPS只是个例子,此程式应有能力抓取任何的category後存入资料库或者csv档案
以作为我统计软体(sas)可分析的档案
此程式须抓美国和日本的amazon,且抓取速度应快速。
我需要"每天"使用此程式抓取amazon商品期间的变化,此程式应稳定。
amazon网站是我的研究主题,此程式完成後,测试无误稳定後,将於一周内
发包另一相关专案,接此专案者须有时间在一周内接下另一amazon网页抓取的相关专案
◎公司名称: (必须填写 未写者将依版规删除文章)
→个人
人力公司代徵请写人力公司名称 补教/餐饮/其他等请写需求店之全名
行销公司请写哪家行销公司 工厂请写哪家工厂 才艺教室也请写哪家教室
注意:公司名称没写出来 绝对会被删文 到时候又必须重新发文一次
为了劳资方的方便 请依照规定填写出来
◎需求人数:
→1
◎条件[希望性别]:(有希望性别请适当说明原因)
→不拘
依据就业服务法第5条与性别工作平等法第7条,雇主徵才时不得有性别歧视,
如工作性质特殊要限定性别,请有合理理由,且雇主必须自行负担被申诉的风险。
◎联络方式:(提供电话有限制连络的时间 请另外注明)
→请寄信说明将使用程式语言\报价\完工日至
[email protected]
◎其他:
→
◎通知:
本职缺开放应徵至:
(请填写 没有期限 或是 一个日期 )
若在应徵期限前徵到人 将以下列何者通知:
1)徵到人在这篇标题注明(大写T修改标题)
2)会一一回信给报名者通知是否应徵到
大写T就是修改标题 请勿另外新起一篇说徵到人
大写T就是修改标题 请勿另外新起一篇说徵到人
大写T就是修改标题 请勿另外新起一篇说徵到人
(资方徵到人请改标题或是通知应徵者 多多体谅劳方等待心情)
(另者 若有板友检举未通知 将依版规9进行水桶)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 98.222.252.227
※ star2000:转录至看板 Programming 11/05 11:58
※ star2000:转录至看板 CodeJob 11/05 12:03
※ star2000:转录至看板 Soft_Job 11/05 12:15
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 98.222.252.227
1F:推 huge:这样抓应该会被Amazon挡下来吧 0rz 11/05 17:10
2F:推 seLain:有一个作法是伪装成 browser 先把所有网页存档再另行 parse 11/05 20:41
3F:→ star2000:本校和amazon有合作,由本校出发的ip是可撷取网页的 11/05 22:06
4F:推 wotupset:台湾的线路连日本阿骂松频宽有快到一天抓完全部吗 @@? 11/05 22:28
5F:→ wotupset:既然有合作的话 不然直接请阿骂松提供每日新增的评价吧 11/05 22:29
6F:推 huge:应该这麽说,我当初的经验是抓yahoo股市,结果被挡下来 11/05 23:29
7F:→ huge:不晓得是程式太暴力还是抓的方法不对,即使有判断robot.txt 11/05 23:29
8F:推 softwind:YAHOO 有人破过吗? 我用Ruby 的也是会被挡... 11/06 02:02
9F:推 hazton:yahoo最近越来越严格了... 11/06 08:08
10F:→ kenzou:yahoo有一些破解的方法,认真google一下会有solution的。 11/06 16:57
11F:推 alexsh:应该有API可以套吧? 11/08 14:58
12F:→ gmp3fs:error 999有破解的方法? 笑点是方法用google? 11/09 01:37