作者qweqweqweqwe (啪)
看板C_Sharp
標題[問題] 關於擷取所有原始碼
時間Tue Sep 25 14:14:22 2007
有辦法可以順利的擷取所有網頁的原始碼嗎
因為每個網頁的Encode都不盡相同..
怎樣知道被擷取原始碼網頁的編碼呢..?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.225.106.66
1F:推 horngsh:有些HTML碼是由ASP或PHP動態產生的.... 09/25 16:05
2F:→ qweqweqweqwe:那如果我只要擷取網站內的中文或英文呢 ..? 09/25 17:59
3F:推 wa120:c++的我寫過 找找看c#有沒有元件可以使用 09/25 18:31
4F:→ wa120:<meta http-equiv="Content-Type" charset=big5">這行是預設 09/25 18:34
5F:→ wa120:編碼 如果沒這行網頁很容易亂碼 而且會變成ie所選擇的編碼 09/25 18:35
6F:→ wa120:網頁擷取擷取不到asp/php/jsp的原始碼 09/25 18:36
7F:→ wa120:可是你可以拿到html格式;) 09/25 18:38
8F:→ qweqweqweqwe:恩 我知道 code我不要 只需要可以正確的抓到中文字 09/25 18:46
9F:→ qweqweqweqwe:所以這樣說我一定要先抓到網頁的charset= xxx才可以? 09/25 18:47
10F:→ qweqweqweqwe:但是這樣要先讀取1次html 再根據讀到編碼在讀1次html 09/25 18:48
11F:→ qweqweqweqwe:怕資料筆數一多的時候..效率慢1半@@ 有更好的方法嗎 09/25 18:49
12F:推 wa120:網頁有個標頭檔資訊 裡面也有編碼應該可以節省不少時間吧@@ 09/25 18:57
13F:→ wa120:我是不確定他跟<meta>標籤互衝會有什麼問題~~ 09/25 19:00
14F:→ wa120:不過我覺得他的標頭資訊(header)是Server的預設值 09/25 19:01
15F:推 cole945:先抓成byte[]後再依charset轉碼呀 @o@" 09/25 19:50
16F:→ qweqweqweqwe:可以請問樓上的大概該怎樣做嗎?@@ 09/25 23:57