作者StubbornLin (Victor)
看板Programming
标题[问题] Unicode到底该怎麽玩= ="
时间Wed Feb 7 23:09:50 2007
最近在写网路爬虫,遇到了不少问题= ="
编码就是一个很大的问题.....
爬虫会遇到各种不同编码的网页...
硬生生地吞进去肯定会消化不良
还得让它看清楚什麽东西再吃
老实说...写程式那麽久以来
从来没写过Unicode的程式
感觉上....Unicode好像很复杂的样子
什麽字面什麽鬼的一大堆
然後呢...名称又百百种 搞得我不知道什麽东西是什麽东西
接着,写Unicode的东西好像要架构在一些莫明奇妙的函式库上面
也不知道它怎麽转的 然後随便一个处理字串的函式
似乎要花很大的时间跟他奋战 = =||
总觉得很不安的感觉 跟ASCII那几个字而已不一样 orz...
所以....unicode到底该怎麽玩阿?
转码应该要有个对照表吧? 那对照表要去哪里生? 转又是怎麽个转法?
有没有介绍Unicode programming的书?
还是有什麽比较据体的东西可以参考吗?
-------------------------------------------------
顺代一提 我的爬虫在测试时不小心吃到有笨蛋在留言版网址列打中文生出来的连结 XD
结果又遇到我自己写的转小写函式... 不小心把中文的一个字元转成小写 = =||
(抱怨一下... 大小写转换那麽常用 C++标准就是不提供 (/‵Д′)/~ ╧╧
还好Boost里面好像有 有没有人用过?不知道会不会像我那个一样吃到中文)
MySQL因为没设定网址的字集,结果也消化不良 吐出来 告诉我字集有问题
不过我发现一件有趣的事,就是在FireFox指着中文连结会出现一串怪怪的编码
我起初还以为是那个被错编成乱码,直到我想起一件事
就是中文网址,似乎有个标准,可以将中文 (或其它语言?)
转换成特定形式的编码,换算成正统的domain name
那个的编码方式要去哪里找? 我觉得还蛮有趣的 XDDD
只是......看那个样子= =|| 那种中文网址应该是冷门到哭出来 XDDDD
随便打个最常用的中文字 + .com做网址都是广告页面 XDDD
真是可怜..... 当初投资的人应该会哭死 XDDD
--
VICTOR工作室 |
PTT游戏设计版隆重开幕!
|
不管是新手老手,程式美工音乐企划....
URL :
http://www.kinmen.info/vic/ |
都欢迎来游戏设计版参与讨论 XD
|
战略高手>
C/C++ |
GameTopics>
Visual Basic 6.0 |
GameDesign
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.116.64.97
1F:推 buganini:可以参考看看PHP的mbstring lib source 163.22.93.130 02/08 02:09