Re: [请益] 使用simple_html_dom parsing aspx的网站

时间Wed Jul 10 15:51:54 2013

※ 引述《ireullin (raison detre)》之铭言： : 请问一下 : 我使用 simple_html_dom 去抓取一个aspx网站的内容 : 作法如下 : $data=array( : '__EVENTTARGET'=>'', : '__EVENTARGUMENT'=>'', : '__LASTFOCUS'=>'', : '__VIEWSTATE'=>'', : '__EVENTVALIDATION'=>'', : ); : $data_url = http_build_query($data); : $data_len = strlen ($data_url); : $request = array( : 'http' => array ( : 'method' => 'POST', : 'content' => $data_url, : 'header' => "Content-type: application/x-www-form-urlencoded\r\n" . : "Content-Length: " . $data_len . "\r\n" : ) : ); : $context = stream_context_create($request); : $html = file_get_html( : 'http://www.url.com.tw/history.aspx', : false, : $context : ); : 可是以下这几个栏位 : __EVENTTARGET : __EVENTARGUMENT : __LASTFOCUS : __VIEWSTATE : __EVENTVALIDATION : 不知道要填什麽 : 因为他是一连串不明的编码 : 可是如果保持空白 : 或是填入与 fiddler中看到相同的值的话 : 抓到的都是此网页不存在 : 请问针对aspx的这种网页 : 该如何去parsing 如果是单纯抓这网址(http://www.taiwanlottery.com.tw/Lotto/SuperLotto638/history.aspx) 可以不需要post那些栏位但是用Charles观察发现单纯抓的时候会多返回一个404的网址(如图http://i.imgur.com/XtS6JFx.png) http://www.taiwanlottery.com.tw/Lotto/SuperLotto638/*.html 也许你抓到的都是最後一个返回的404的网址如果是要查询特定年/月，post的栏位如下图所示： http://i.imgur.com/F8CKOeM.png 虽然工作主要是使用php，不过以前习惯用java 所以工作上的需求还是用java来完成最近才去搜寻php相关的html parser套件，因此在板上看到这篇问题就很有兴趣了你可以找看看为什麽Simple HTML DOM Parser会抓到404的网址对了，在查询特定年/月时，__VIEWSTATE/__EVENTVALIDATION需要使用它给的值不然会抓到重导回查询页的资讯 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 210.209.20.204

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

PHP 板

Re: [请益] 使用simple_html_dom parsing aspx的网站

热门看板

赞助商连结