作者tnsshnews (tnsshnews)
看板java
标题[问题] jsoup有办法让所有网站的模拟人的行为吗
时间Fri Jul 10 18:53:30 2015
Dear all,
标题或许下的有点不好, 小弟想厘清一些观念,
1. 所有的网站都是get/port的传递方式?
2. 是不是所有的网站都可以写程式模拟人的行为自动取得资料?
3. 像google translation的网站, 利用chrome的Inspector去看request packet,
似乎找不到明确的传递封包, 而看原始码更是可怕的一堆乱码,
不知这又是什麽设计呢?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.127.173.173
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/java/M.1436525612.A.680.html
※ 编辑: tnsshnews (59.127.173.173), 07/10/2015 18:54:59
1F:→ bitlife: 1. 主要是GET/POST (not port)没错(HTTP还有其他method) 07/10 19:16
2F:→ bitlife: 2. 理论上是(但实务上的前提是人已经先清楚所有GET/POST 07/10 19:17
3F:→ bitlife: 的互动内容并能正确合成request 07/10 19:18
4F:→ bitlife: 有些问captcha的情况,要全自动甚至需要文字辨识的介入 07/10 19:19
5F:→ bitlife: ^若 07/10 19:19
6F:→ bitlife: 所以你会发现,目前主流就是以captcha来假定client是个人 07/10 19:20
※ 编辑: tnsshnews (59.127.173.173), 07/10/2015 20:12:39
7F:→ bitlife: 用firefox的[网页开发者]看,它仍是用GET,google一般各项 07/11 12:00
8F:→ bitlife: 服务都有相关api,去找看看有没有translate的api 07/11 12:01
9F:→ bitlife: google的ajax code多半为工具编译产生(如gwt),看起来像乱 07/11 12:02
10F:→ bitlife: 码是很正常的 07/11 12:02
11F:推 caty1010: 简单来说 看目标而定 不一定 07/12 20:34