作者star2000 (昨夜风)
看板CodeJob
标题[发案] 网页资料撷取
时间Thu Nov 5 14:07:52 2009
案件状态:已发包
发案人:个人
联络方式1:[email protected]
联络方式2:
有效时间:一周
专案说明:
www.amazon.com和www.amazon.co.jp两网页资料撷取
需求如下:
需两程式可将www.amazon.com及www.amazon.co.jp
上的category及其消费者评论内容结取下来存入资料库
以美国amazon为例,选择electronics後按go
最右手边会有子项目的所有产品
GPS&Navigation有七千多笔资料,我需要此程式能把这七千多笔资料都抓取下来
所需要抓取的内容为price/list price/name/isbn or asin/in stock or not/
release date/total customer review/number of five star/
number of four star/number of three star/number of two star/
number of one star/sale rank1/sale rank category1/sale rank2/
sale rank category2/sale rank3/sale rank category
GPS只是个例子,此程式应有能力抓取任何的category後存入资料库或者csv档案
以作为我统计软体(sas)可分析的档案
此程式须抓美国和日本的amazon,且抓取速度应快速。
我需要"每天"使用此程式抓取amazon商品期间的变化,此程式应稳定。
amazon网站是我的研究主题,此程式完成後,测试无误稳定後,将於一周内
发包另一相关专案,
接此专案者须有时间在一周内接下另一amazon网页抓取的相关专案
预算:请来信报价
接案者要求:
附注:
(以下内容鼓励结案後填写,可以询问接案人愿不愿意暴光接案身份)
结案意见:
接案人:
评价(0-10):
说明:
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 98.222.252.227
1F:推 alexsh:amazon喔…jp我不确定,us那边好像有API可以用 11/05 15:11
2F:→ qrtt1:jp也是同一个 api 只是 entrypoint 不一样 11/05 15:22
3F:推 makiyolove:之前做过跑e-bay的..东西一直跑跑到硬碟坏了..哭哭 11/05 15:24
4F:推 alexsh:这种爬网站的我手上有个project在做…不过我对amazon不熟 11/05 17:31
5F:→ rex05188:最近做爬网页的,某一天网页注解大改,又去DEBUG 11/06 09:15
6F:推 liangkuo:有人做吗? 11/06 19:44
7F:推 TonyQ:amazon 的要小心amazon 会偷丢假资料回来 XD 如果你没注意到 11/06 21:55
8F:→ TonyQ:某些细节的话... 11/06 21:55
9F:推 buganini:好心机.. 11/07 07:55
※ 编辑: star2000 来自: 98.222.252.227 (11/07 13:50)
※ 编辑: star2000 来自: 98.222.252.227 (11/07 13:51)
10F:推 Numino:抓取速度和程式无关,案主网速块就可以 11/07 22:40
11F:推 summerdog:请问跟网页注解有啥关系?? 这不是用jquery去抓tag吗? 11/08 11:10
12F:推 TonyQ:楼上一定在开玩笑 , 用jQuery去抓tag 怎麽存进资料库?.? 11/08 11:42
13F:→ TonyQ:jQuery明明就是 js 体系的东西... 11/08 11:42
14F:推 ursonice:js server side ?_? 11/09 11:53