作者tnsshnews (tnsshnews)
看板java
標題[問題] jsoup有辦法讓所有網站的模擬人的行為嗎
時間Fri Jul 10 18:53:30 2015
Dear all,
標題或許下的有點不好, 小弟想釐清一些觀念,
1. 所有的網站都是get/port的傳遞方式?
2. 是不是所有的網站都可以寫程式模擬人的行為自動取得資料?
3. 像google translation的網站, 利用chrome的Inspector去看request packet,
似乎找不到明確的傳遞封包, 而看原始碼更是可怕的一堆亂碼,
不知這又是什麼設計呢?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.173.173
※ 文章網址: https://webptt.com/m.aspx?n=bbs/java/M.1436525612.A.680.html
※ 編輯: tnsshnews (59.127.173.173), 07/10/2015 18:54:59
1F:→ bitlife: 1. 主要是GET/POST (not port)沒錯(HTTP還有其他method) 07/10 19:16
2F:→ bitlife: 2. 理論上是(但實務上的前提是人已經先清楚所有GET/POST 07/10 19:17
3F:→ bitlife: 的互動內容並能正確合成request 07/10 19:18
4F:→ bitlife: 有些問captcha的情況,要全自動甚至需要文字辨識的介入 07/10 19:19
5F:→ bitlife: ^若 07/10 19:19
6F:→ bitlife: 所以你會發現,目前主流就是以captcha來假定client是個人 07/10 19:20
※ 編輯: tnsshnews (59.127.173.173), 07/10/2015 20:12:39
7F:→ bitlife: 用firefox的[網頁開發者]看,它仍是用GET,google一般各項 07/11 12:00
8F:→ bitlife: 服務都有相關api,去找看看有沒有translate的api 07/11 12:01
9F:→ bitlife: google的ajax code多半為工具編譯產生(如gwt),看起來像亂 07/11 12:02
10F:→ bitlife: 碼是很正常的 07/11 12:02
11F:推 caty1010: 簡單來說 看目標而定 不一定 07/12 20:34