作者star2000 (昨夜風)
看板CodeJob
標題[發案] 網頁資料擷取
時間Thu Nov 5 14:07:52 2009
案件狀態:已發包
發案人:個人
聯絡方式1:[email protected]
聯絡方式2:
有效時間:一周
專案說明:
www.amazon.com和www.amazon.co.jp兩網頁資料擷取
需求如下:
需兩程式可將www.amazon.com及www.amazon.co.jp
上的category及其消費者評論內容結取下來存入資料庫
以美國amazon為例,選擇electronics後按go
最右手邊會有子項目的所有產品
GPS&Navigation有七千多筆資料,我需要此程式能把這七千多筆資料都抓取下來
所需要抓取的內容為price/list price/name/isbn or asin/in stock or not/
release date/total customer review/number of five star/
number of four star/number of three star/number of two star/
number of one star/sale rank1/sale rank category1/sale rank2/
sale rank category2/sale rank3/sale rank category
GPS只是個例子,此程式應有能力抓取任何的category後存入資料庫或者csv檔案
以作為我統計軟體(sas)可分析的檔案
此程式須抓美國和日本的amazon,且抓取速度應快速。
我需要"每天"使用此程式抓取amazon商品期間的變化,此程式應穩定。
amazon網站是我的研究主題,此程式完成後,測試無誤穩定後,將於一周內
發包另一相關專案,
接此專案者須有時間在一周內接下另一amazon網頁抓取的相關專案
預算:請來信報價
接案者要求:
附註:
(以下內容鼓勵結案後填寫,可以詢問接案人願不願意暴光接案身份)
結案意見:
接案人:
評價(0-10):
說明:
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 98.222.252.227
1F:推 alexsh:amazon喔…jp我不確定,us那邊好像有API可以用 11/05 15:11
2F:→ qrtt1:jp也是同一個 api 只是 entrypoint 不一樣 11/05 15:22
3F:推 makiyolove:之前做過跑e-bay的..東西一直跑跑到硬碟壞了..哭哭 11/05 15:24
4F:推 alexsh:這種爬網站的我手上有個project在做…不過我對amazon不熟 11/05 17:31
5F:→ rex05188:最近做爬網頁的,某一天網頁註解大改,又去DEBUG 11/06 09:15
6F:推 liangkuo:有人做嗎? 11/06 19:44
7F:推 TonyQ:amazon 的要小心amazon 會偷丟假資料回來 XD 如果你沒注意到 11/06 21:55
8F:→ TonyQ:某些細節的話... 11/06 21:55
9F:推 buganini:好心機.. 11/07 07:55
※ 編輯: star2000 來自: 98.222.252.227 (11/07 13:50)
※ 編輯: star2000 來自: 98.222.252.227 (11/07 13:51)
10F:推 Numino:抓取速度和程式無關,案主網速塊就可以 11/07 22:40
11F:推 summerdog:請問跟網頁註解有啥關係?? 這不是用jquery去抓tag嗎? 11/08 11:10
12F:推 TonyQ:樓上一定在開玩笑 , 用jQuery去抓tag 怎麼存進資料庫?.? 11/08 11:42
13F:→ TonyQ:jQuery明明就是 js 體系的東西... 11/08 11:42
14F:推 ursonice:js server side ?_? 11/09 11:53