作者storypp (随风而逝的是一份真)
看板java
标题[问题] httpclient遇到#document
时间Thu Oct 20 21:05:43 2016
我使用HttpClient要抓网页原始档
可是只要遇到网页内含有
#document
该段就会被跳过
如图一
http://i.imgur.com/VBDQIgC.png
这个网页用chrome的检查可以看到里面有一段
#document的内容
可是当我使用HttpClient搭配HttpGet之类的要把原始档抓下来,
结果变成图二
http://i.imgur.com/OmN99yt.png
可以看到
#document一直到</frame>中间的内容全部消失
想请教大家都如何解决这种问题?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.35.252.180
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/java/M.1476968746.A.944.html
1F:→ ssccg: 那就是frame里的另一个网页,你要parse frame的src另外发一 10/20 21:36
2F:→ ssccg: 个reuqest去抓才会有,#document只是chrome开发者工具标示 10/20 21:36
3F:→ ssccg: frame中另一个网页内容的方式而已 10/20 21:37
4F:→ ssccg: 另外Elements是chrome建的DOM,原始档是Sources那个分页的 10/20 21:39