作者qweqweqweqwe (啪)
看板C_Sharp
标题Re: [问题] 关於撷取所有原始码
时间Fri Sep 28 16:59:27 2007
※ 引述《leicheong (睡魔)》之铭言:
: ※ 引述《cole945 (躂躂..)》之铭言:
: : 假设你是用 WebClient 抓了一个网页下来
: : WebClient client = new WebClient();
: : byte[] data = client.DownloadData("http://www.google.com");
: : /* 在这里用某种神奇的方法侦测他是什麽编码,
: : ie, 取得他的 charset, 预设是 iso-8859-1 */
: 简单的方法是看Response header中的charset部份:
: Content-Type: text/html; charset=UTF-8
: 也可以看body中的meta tag:
: <meta http-equiv="content-type" content="text/html; charset=UTF-8">
: 通常是以meta tag的为准, 因为这是要手动加上去的.
: 没有的话设成Response header的就可以了. 这在主流的web server都会
: 自动加上去的. 预设通常会是utf-8, 不过因为这和iso-8859-1和在纯ASCII
: 英文的编码中除了开始时没有BOM外没有任何分别, 所以这样就好. :P
刚刚写了一下
最後决定用抓meta charset的方法
(因为试了 response header.. 成功率不高)..
http://s93.tku.edu.tw/~493522469/GetResponse.txt
这是我的程式码@@
有空的人可以帮忙看一下有什麽可以改进效率的地方吗
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.225.111.56