作者filiaslayers (司馬雲)
看板RegExp
標題[問題] 網頁資料抓取
時間Mon Mar 3 15:17:58 2014
/*
聽說註明使用的語言、環境
*
問題有可能較容易被解決...
*/
我寫了一個script想要抓取一個網頁上的檔案列表
這個網頁是用apache做index,也就是會把目錄下的檔案自動生成一個列表
我有上網google到一個方法,不過他寫的我實在看不懂...
有人可以教我怎麼分析嗎?
wget --spider --recursive --no-verbose --output-file=wgetlog.txt $url
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@"
第一行我知道,不過第二行就不看太懂了
而且linux下的sed不是應該要用
'而不是
"嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.135.113.202
1F:→ danny8376:誰跟你說一定要用'了? "只是要考慮shell的一些特殊符號 03/03 19:23
2F:→ danny8376:要記得跳脫比較麻煩而已 03/03 19:23
3F:→ filiaslayers:所以是都可以嗎?我看所有的教學文都用'才覺得奇怪 03/03 21:04
4F:→ danny8376:兩者的差別 你可以分別跑 echo '$PATH' 和 echo "$PATH" 03/03 21:44
5F:→ danny8376:差異很明顯 03/03 21:44
6F:→ danny8376:然後回一下你問了 第二行的話 很簡單 03/03 21:47
7F:→ danny8376:就是從wgetlog.txt裡面抓出URL:後面的部分 03/03 21:47
8F:→ danny8376:(就是WGET輸出檔案中 檔案的部分 03/03 21:48
9F:→ danny8376:抓出來之後再把&換成& (HTML的特殊字元跳脫) 03/03 21:48
懂了,非常謝謝你
還可以再請問一下,裡面的@是什麼用意嗎?
※ 編輯: filiaslayers 來自: 1.34.109.207 (03/04 08:02)