作者ireullin (raison detre)
看板PHP
标题[请益] 使用simple_html_dom parsing aspx的网站
时间Mon Jul 8 17:16:44 2013
请问一下
我使用 simple_html_dom 去抓取一个aspx网站的内容
作法如下
$data=array(
'__EVENTTARGET'=>'',
'__EVENTARGUMENT'=>'',
'__LASTFOCUS'=>'',
'__VIEWSTATE'=>'',
'__EVENTVALIDATION'=>'',
);
$data_url = http_build_query($data);
$data_len = strlen ($data_url);
$request = array(
'http' => array (
'method' => 'POST',
'content' => $data_url,
'header' => "Content-type: application/x-www-form-urlencoded\r\n" .
"Content-Length: " . $data_len . "\r\n"
)
);
$context = stream_context_create($request);
$html = file_get_html(
'
http://www.url.com.tw/history.aspx',
false,
$context
);
可是以下这几个栏位
__EVENTTARGET
__EVENTARGUMENT
__LASTFOCUS
__VIEWSTATE
__EVENTVALIDATION
不知道要填什麽
因为他是一连串不明的编码
可是如果保持空白
或是填入与 fiddler中看到相同的值的话
抓到的都是此网页不存在
请问针对aspx的这种网页
该如何去parsing
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 219.85.180.156
1F:推 microtech:正常方式这页面是怎麽进去看的? 07/09 11:08
2F:→ ireullin:由我要抓的上一页,点一个连结 07/09 12:51
3F:→ ireullin:然後用post的方式带一些参数与上述的那些 07/09 12:52
4F:→ ireullin:其他的参数基本上没甚麽问题 07/09 12:52
5F:→ ireullin:可是上述那些如果不带,还是导不到我要的页面 07/09 12:53
6F:推 microtech:"你要抓的上一页"->有没有网址提供一下,想试看看 07/09 14:18
8F:→ ireullin:威力彩,只想抓固定期数的号码 07/09 15:22
9F:→ ireullin:istory.aspx 抱歉,後面断掉了 07/09 15:23