作者chhuang (瓶水相逢)
看板C_Sharp
标题Re: [问题] 关於撷取所有原始码
时间Tue Sep 25 22:42:39 2007
※ 引述《qweqweqweqwe (啪)》之铭言:
: 有办法可以顺利的撷取所有网页的原始码吗
: 因为每个网页的Encode都不尽相同..
: 怎样知道被撷取原始码网页的编码呢..?
'
有时候很难判断...
Response 的 Header 可能会有 charset 资讯
Content-Type: text/html; charset=big5
(ex.
http://tw.news.yahoo.com 就没有)
HTML 内容中 meta 资讯也会有 charset 资讯
<meta http-equiv="Content-Type" content="text/html; charset=big5" />
但是有时候也会没有写 meta 的时候
如果上都没有写只好把内容抓成 byte[]...从 BOM 去判断
还是不行就想想吧...XD
--
http://blog.roodo.com/chhuang
--
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 编辑: chhuang 来自: 61.62.84.89 (09/25 22:48)