PHP 板


LINE

看板 PHP  RSS
小弟想利用curl来抓取某网站的内容 https://www.youtube.com/trendsdashboard#age0=25-34&loc0=twn 使用以下mycurl()的程式码 , 有抓到东西 抓到的head如下: HTTP/1.1 200 OK Date: Wed, 30 Mar 2016 09:23:41 GMT Server: gwiseguy/2.0 X-Frame-Options: SAMEORIGIN X-XSS-Protection: 1; mode=block; report=https://www.google.com/appserve/security-bugs/log/youtube Cache-Control: no-cache Content-Type: text/html; charset=utf-8 Expires: Tue, 27 Apr 1971 19:44:06 EST Strict-Transport-Security: max-age=604800 X-Content-Type-Options: nosniff Accept-Ranges: none Vary: Accept-Encoding Transfer-Encoding: chunked 後来我也有把cookie 送上去 但不知为什麽抓不到原始网页下方影片的资讯(连结href, 点及次数...等资讯) 想请教大家自己是哪个地方出错? 或是目标网页有什麽新技术 造成无法抓取呢? 感谢~~ function mycurl() { //目标网站 $target1="https://www.youtube.com/trendsdashboard#age0=25-34&loc0=twn "; #####(A 1)选项设定: 目标设置 / 起始 / 假冒 $s=curl_init(); curl_setopt($s,CURLOPT_URL,$target1); $user_agent='Mozilla/5.0 (Windows NT 6.1;WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11'; curl_setopt($s, CURLOPT_USERAGENT, $user_agent); #(1)是否发送POST请求 (填表单) //$POST_data1=array('CN'=>"l6",'remember'=>"1",'UserPASSWORD'=>"091",'URL'=>""); //$POST_data2=array('username'=>"[email protected]",'passwd'=>""); //curl_setopt($s,CURLOPT_POST,1); //curl_setopt($s,CURLOPT_POSTFIELDS,$POST_data1); #(2)结果回传:是否以 文件流/二元码方式传回 curl_setopt($s,CURLOPT_RETURNTRANSFER,TRUE); //curl_setopt($s,CURLOPT_BINARYTRANSFER,TRUE); #(3)结果回传:是否 包含标头 / 只要BODY curl_setopt($s,CURLOPT_HEADER,TRUE); #(4)COOKIE设定: CURLOPT_COOKIEJAR接收储存资讯 ,而CURLOPT_COOKIEFILE送出资讯。 ###送出多个cookie内容(变数资料串),分号後要带1个空格 范例"friut=8923; curl_setopt($s,CURLOPT_COOKIE,"VISITOR_INFO1_LIVE=4kLW9NhJVbI; YSC=KTyxERZA5Io; PREF=f1=50000000"); ###记录COOKIE资讯,在cookie.txt中(绝对位置) curl_setopt($s,CURLOPT_COOKIEJAR,"C:\\xampp\\htdocs\\mark\\cookie.txt"); ###浏览时,把cookie.txt当中的COOKIE资讯一并送出给伺服器 curl_setopt($s,CURLOPT_COOKIEFILE,"C:\\xampp\\htdocs\\mark\\cookie.txt"); #(5)SSL网站 (https开头) ######抓取SLL网站则要记得开启verifypeer这行 并设定成false curl_setopt($s,CURLOPT_SSL_VERIFYPEER,false); curl_setopt($s,CURLOPT_SSL_VERIFYHOST,0); //curl_setopt($s, CURLOPT_SSL_CAPATH,cainfo); //curl_setopt($s, CURLOPT_SSL_CAINFO,"cainfo.txt"); //curl_setopt($s, CURLOPT_SSL_VERSION,2); ######是否检查伺服器端SSL证书中有没有domain/subdomain name //curl_setopt($s, CURLOPT_SSL_VERIFYHOST,TRUE); # (6)设定等待SERVER的时间~单位秒 curl_setopt($s,CURLOPT_TIMEOUT,15); # (7)重新导向 : 是否跟随重导 ,设定引入参照, 最大重导次数 curl_setopt($s,CURLOPT_FOLLOWLOCATION,TRUE); curl_setopt($s,CURLOPT_AUTOREFERER,TRUE); curl_setopt($s,CURLOPT_MAXREDIRS,3); //curl_setopt($s,CURLOPT_UNRESTRICTED_AUTH,TRUE); #####(B)最後一次 执行CURL 并把错误资讯导出################ $download_page=curl_exec($s); $errors=curl_error($s); ###### 展示并写入挡案:$download_page & webget.txt ######## echo $download_page."<br>"."抓取结END!"; file_put_contents("WEBget.txt",$download_page); } --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.184.33.38
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PHP/M.1459329966.A.476.html ※ 编辑: marksam (111.184.33.38), 03/30/2016 17:34:21 ※ 编辑: marksam (111.184.33.38), 03/30/2016 17:38:21
1F:→ MOONRAKER: 天啊 ajax网站用curl怎麽抓得完 03/30 18:22
2F:→ MOONRAKER: 人家有API 不要用这种逼猪上树的方法好吗 03/30 18:23
※ 编辑: marksam (111.184.33.38), 03/30/2016 18:51:05
3F:→ marksam: 如何看出有AJAX呢? 慢慢爬JS码吗? 03/30 18:51
4F:→ JustGame: 请爱用浏览器 F12 快捷键,是说这样来得及结案吗? 03/30 22:16
※ 编辑: marksam (111.184.33.38), 03/30/2016 23:10:14
5F:→ marksam: 按了f12阿 但是从我抓下来的内容中 找不到关键的ajax 03/30 23:11
6F:→ marksam: 应该问「从js大海中 看出ajax的关键字」是什麽呢? 03/30 23:12
7F:→ Neisseria: https://www.youtube.com/yt/dev/ 不要花时间找了 03/30 23:17
8F:→ Neisseria: 有空的话,好好学些 third-party API 卡实在 03/30 23:18
9F:推 aaa7513231: 蛮好奇他不是要求用bat或exe嘛,php是要 03/31 00:31
10F:→ aaa7513231: 怎样用啊 03/31 00:31
11F:→ Neisseria: http://php.net/manual/en/book.curl.php 包成 library 03/31 05:02
12F:→ MOONRAKER: 你是在抓youtube 不是没人听过的2266站好吗 03/31 09:41
13F:→ MOONRAKER: 这种变态的站根本不用看他有没有ajax 用闻的就知道了 03/31 09:43







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP