作者jians (jian)
看板Ajax
标题[问题]利用jQuery抓取网页原始码
时间Fri May 29 22:33:14 2009
请问如何利用jQuery使client自己本身去抓取指定网页的原始码(例如指定去抓Yahoo)
然後再将抓到的原始码存入伺服端PHP变数中!
因为如果使用PHP的函数去抓取指定网页的话!
因为都是使用伺服端IP去抓,所以一定会被那个网站给封杀(锁IP)
不过根据了解jQuery有办法达到这个目的
所以想请教各位高手们!请问哪里有我说的这种效果的范例?
或是有高手可以指点指点小弟我的:)
整个功能就像是
http://imgs.ck101.com/?wretch这个网站一样
利用client作为白手套来抓取原始码然後加以利用!
有请高手指点:)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.127.64.178
1F:推 cloudccw:你上面不是问过了 java-script不能cross-domain抓东西 05/29 23:28
2F:→ cloudccw:一个是你用php当跳板抓 另一个是你要抓的站有支援 05/29 23:29
3F:→ cloudccw:回传json 你才能用jquery接 05/29 23:30
4F:→ cloudccw:我想到的 要cross-domain只有这两种方法 05/29 23:32
5F:推 chph:你给的网站是用後端抓的 05/30 00:58
6F:→ jians:谢谢两位大大的解答:) 05/30 04:16
7F:→ jians:但是如果他们是用後端抓,那...怎麽可能不被无名封锁呢? 05/30 04:17
8F:推 wa120:因为後端抓的原理 就跟使用者在看网页的道里一样阿XD 05/30 10:59
9F:→ jians:不解!可以麻烦解说的详细点吗:) 05/30 11:10
10F:推 wa120:客户端在看网页 看的还不是"按右键检视原始码"的那些字串处 05/30 11:45
11F:→ wa120:里的结果 php用curl就可以做到 05/30 11:45
12F:→ jians:我的主要用意是使用客户端IP连结!否则浏览频繁会被锁IP:) 05/30 12:05
13F:→ Kelunyang:那你还是写一个Windows Form程式吧XD 05/30 13:01
14F:→ Kelunyang:或者你在後端机器上频繁的换proxy不就好了XDDDDDD 05/30 13:02
15F:→ jians:这太麻烦了XD所以才想找这种方法! 05/30 13:07
16F:推 Kelunyang:写一个shell script叫他换不就好了(误 05/30 13:09
17F:推 chph:只有用程式在短时间内大量存取才会被拒绝服务 05/30 13:32
18F:→ chph:等你碰到这问题才来解决不迟, 大可不必刚开始就用复杂的方法 05/30 13:33
19F:→ jians:我的网页设计用途上确实会有这个问题...(做大的话)Orz" 05/30 13:33
20F:→ jians:实不相瞒!我程式我本身已经用PHP函数设计完了! 05/30 13:34
21F:→ jians:可是最近都碰到伺服器被锁IP所以才再找替代方式的XD 05/30 13:35
22F:→ jians:所以简单来说!问题我已经遇到了Orz" 05/30 13:36
23F:推 wa120:我写这个自己有将它做成网页cache XD 05/30 14:55
24F:→ wa120:只要不要太频繁就好了 05/30 14:55
25F:→ jians:我的难做cache,因为每次要取得的东西都不一样! 05/30 18:24
26F:推 Kelunyang:可不可以拉长你的存取时间? 05/30 22:02
27F:→ jians:如果是上网尖峰时段我就无法避免了… 05/31 00:13
28F:→ TonyQ:那你需要的是多个proxy轮着用... 05/31 00:23
29F:推 chph:如果你流量很大, 怎麽不乾脆找无名合作? 05/31 00:39
30F:→ jians:找无名合作=叫我找死 XD 05/31 01:49
31F:→ jians:proxy我有想过!只是想看看有没有更好的!目前应该没希望了 05/31 01:50
32F:→ tka:有考虑用tor来做吗? 方法越来越邪恶了 XD 05/31 02:16
33F:→ tka:不过这东西叫使用者装greasemonkey然後你放script应该也可以吧 05/31 02:18
34F:→ jians:HAHA!我还是想找方便使用者使用的方法! 05/31 10:54
35F:→ Kelunyang:对使用者本来就很方便啊,他们又看不到後端 05/31 11:09
36F:→ Kelunyang:喔greasemonkey时在太不普及了XD 05/31 11:10
37F:→ jians:其实我是在架某部落格的音乐语法产生器!我架设好一阵了! 05/31 11:31
38F:→ jians:经常遇到被这个某部落格短暂锁IP(999) 05/31 11:32
39F:→ jians:以方便免安装为原则,而且对象都是不懂语法的… 05/31 11:33