作者qweqweqweqwe (啪)
看板C_Sharp
标题[问题] 关於撷取所有原始码
时间Tue Sep 25 14:14:22 2007
有办法可以顺利的撷取所有网页的原始码吗
因为每个网页的Encode都不尽相同..
怎样知道被撷取原始码网页的编码呢..?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.225.106.66
1F:推 horngsh:有些HTML码是由ASP或PHP动态产生的.... 09/25 16:05
2F:→ qweqweqweqwe:那如果我只要撷取网站内的中文或英文呢 ..? 09/25 17:59
3F:推 wa120:c++的我写过 找找看c#有没有元件可以使用 09/25 18:31
4F:→ wa120:<meta http-equiv="Content-Type" charset=big5">这行是预设 09/25 18:34
5F:→ wa120:编码 如果没这行网页很容易乱码 而且会变成ie所选择的编码 09/25 18:35
6F:→ wa120:网页撷取撷取不到asp/php/jsp的原始码 09/25 18:36
7F:→ wa120:可是你可以拿到html格式;) 09/25 18:38
8F:→ qweqweqweqwe:恩 我知道 code我不要 只需要可以正确的抓到中文字 09/25 18:46
9F:→ qweqweqweqwe:所以这样说我一定要先抓到网页的charset= xxx才可以? 09/25 18:47
10F:→ qweqweqweqwe:但是这样要先读取1次html 再根据读到编码在读1次html 09/25 18:48
11F:→ qweqweqweqwe:怕资料笔数一多的时候..效率慢1半@@ 有更好的方法吗 09/25 18:49
12F:推 wa120:网页有个标头档资讯 里面也有编码应该可以节省不少时间吧@@ 09/25 18:57
13F:→ wa120:我是不确定他跟<meta>标签互冲会有什麽问题~~ 09/25 19:00
14F:→ wa120:不过我觉得他的标头资讯(header)是Server的预设值 09/25 19:01
15F:推 cole945:先抓成byte[]後再依charset转码呀 @o@" 09/25 19:50
16F:→ qweqweqweqwe:可以请问楼上的大概该怎样做吗?@@ 09/25 23:57