作者solaris10 (柚帅柚美可怜可爱)
看板Liu
标题查码程式新功能:加入 Extension A/B 的字
时间Mon Sep 3 13:32:31 2007
(原文放在呒虾米查码程式
http://liu.twbbs.org/liuzmd1/
及查码程式部落格
http://blog.pixnet.net/liuzmd1/post/8286373 上。
由於在 BBS 里无法贴图及使用超连结,所以此文章看起来比较乱,
想看到比较容易看的的版本请点上面两个网页。
)
查码程式新增了一个重要的功能:加入 Extension A/B 的字!
http://tinyurl.com/cdhqr 有介绍 Extension A/B 的由来,
文中所提到的 扩展A区 和 扩展B区 就是 Extension A 和 Extension B。
简单来说,查码程式加入了大概五万个罕用字(约六万个编码)的拆码,
并且出了一个相对应的加字加词档给伪虾使用,对於经常需要使用罕用字
的人来说会很有帮助。
但是并不是每一台电脑都有装 Extension A/B 的字型,所以很多人没办法
看到这些字。就目前所知,Vista 的电脑可以看得到,而 XP 看不到,
要另外安装字型。不过本查码程式是用图片来显示这些罕用字,
所以不管你有没有安装 Extension A/B 的字型,都可以正常的使用查码功能。
以下是一些查码的范例
* 在 2588 篇有人问 玄页 这个字怎麽拆?用查码程式查 LWTB,在右上方
的 Extension A/B 里可以看到这个字,点进去之後就可以看到这个字的
拆码,同时也附上全字库的连结,连进全字库就可以知道这个字念
ㄒㄩㄢˋ。
* 如果有装 Extension A/B 的字型,也可以用"复制贴上"的方法来查码
* 在 2705 篇有人问 金音 这个字怎麽拆?用查码程式查 ALD ......
没有这个字!去全字库查询之後找到这个字的 网页,发现这个字只有
CNS 和 EUC 的编码,
CNS: 11-4D6F 户政EUC: 8EABCDEF
而没有 Unicode 的编码,所以这个字即使在 Vista 上也看不到,
当然更打不出来。
* 在 2859 篇有人问 奇 上面加草字头要怎麽拆。这个字更惨,连全字库上
都没有登录。
* 查码程式也可以使用万用字元 * 和 ?,所以也可以查 a?b 或 cb*d 之类
的码。
* 如果只知道 CNS 编码,也可以用此编码来查字,例如 3-216F 或 11-212B。
* 如果只知道 Unicode 编码,也可以用此编码来查字,例如 U+7C21
或 u+5229。
以下是一些可能会遇到的问题:
1. 问:这些字的呒虾米码确定都对吗?
答:不确定!其实应该做这个编码的是行易公司,而行易也的确做了一个
查怪字程式,只是这个查怪字程式的资料没有公开,也没有编入
第 10 和 11 字面的字,所以我们才以个人的力量来完成
Extension A/B 的编码。
2. 问:编码的时候是只有编入基本字根,还是连简速字根都有加入?
答:原则上是以基本字根为主,另外尽量加入简速字根以及大量的容错拆法。
3. 问:很多字的编码怪怪的,比如说
http://liu.twbbs.org/-DMTC ,应该是拆成 CNC 就好,为什麽还有 CDC
或 CNCL 的拆法?
答:如上所述,我们在编码的时候会尽量纳入容错拆法。在行易公司的查怪字
程式里,所有的「色」都有 NC 和 DC 两种拆码,所以我们碰到这类的字形
都会「尽量」加入 D 和 N 两种拆法。至於 巴 也是一样,我们会尽量加入
C 和 CL 两种拆法,即使我们明知 巴 本身就是一个字根 C。
4. 问:可是还是有很多奇怪的编码,比如说
http://liu.twbbs.org/-DKjI
怎麽会拆成 ZLOH?应该是 ZYPH 吧!中间那个字形明明比 厂 多了一笔!
答:在呒虾米刚开始发展的时候,还没有 Extension A/B 这种东西,
甚至没有 Unicode,所以一开始的字根设计在现在来看就有不少的落差。
以这个字形来说,从查怪字程式里可以看出刘先生把这样的字形都编成 L,
所以我们也把这个字形订成 L。
实际上还有很多类似的例子,不少罕用字长得很奇怪,单用标准字根是
拆不出来的,所以行易公司在查怪字程式里加入了大量的容错拆法和
「类比字根」!碰到这一类的字得多用一点「想像力」,多试几种可能的
拆法才比较有机会拆出来,重点不在於某一个拆码是不是完全符合标准
字根,而在於呒虾米使用者是否能够很有效率的检索到这个字。
5. 问:如果真的对某个字的拆码很不满意,可以要求修改吗?
答:当然可以,请在该页面的下方留下你的心得,讲讲你认为要怎麽拆比较好,
大家可以一起讨论要怎麽改。
6. 问:如果查不到字该怎麽办?
答:先试着用不同的拆法试试,如果还是不行的话,到 全字库网站 去搜寻。
实际上全字库网站里还有一两万个非常罕用的字是 Unicode 里没有的,
这些字没办法显示在电脑上,也没有办法打出来。
7. 问:Extension A/B 的字型要去那里抓?
答:我自己是安装微软的「新细明体套件」,这个套件在微软的网站上已经
抓不到了,不过去网路上搜寻一下,还有很多地方可以下载,比如说
chweng大的网站
http://blog.chweng.idv.tw/archives/221 。
但是请特别注意,有很多人说新细明体套件的字比较丑,比如说
ChrisTorng 的这篇文章
http://groups.msn.com/ChrisTorng/newsannouncement.msnw?
action=get_message&mview=0&ID_Message=4947
(因为童大不爱用短网址,所以上面两行请自行接起来)
用了之後如果不满意,请参考
http://blog.yam.com/yoren/article/4997866 来移除。当然,除了
新细明体套件,还有很多字型可以用,就麻烦各位自行搜寻了。
8. 问:Extension A/B 的加字加词档要去那里抓?
答:
http://liu.twbbs.org/liuzmd1/liu.box/ 。请注意一件事,
为了避免 Extension A/B 的字和原本参考档的字冲突,我的设计是
拆码的後面都要加一个分号 ; ,也就是说要输入这些 Extension A/B
的字,要使用像「RORF;」这样的拆码而不是「RORF」
9. 问:要怎麽使用加字加词档?
答:请将此加字加词档与伪虾的主程式放在同一个目录,并且确定在伪虾
里已经启用了加字加词的功能。
10. 问:使用了这个加字加词档之後,伪虾启动的速度变得很慢,这是
怎麽回事?
答:本加字加词档非常大,有可能使伪虾启动及更新加字加词档的速度
变慢,实测的结果有可能会造成伪虾需要35秒才能启动,所以请
自行评估是否真的要载入这麽大的档案。我们的建议是挑选某些
会用到的罕用字,再自行放入自己的加字加词档。
本次编码是由批踢踢上的 Ciwx, Linpien, Solaris10 合力完成,
而 CNS11643 的资料则是来自於
行政院主计处电子处理资料中心及中文数位化技术推广基金会
的 全字库网站。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.134.104.183
※ 编辑: solaris10 来自: 220.134.104.183 (09/03 13:33)
1F:推 ciwx:头推! 09/03 13:34
2F:推 tingyang:胸推 09/03 13:58
3F:推 TWCHIEN:颈推 09/03 13:59
4F:推 linpien:含泪推... 09/03 14:09
5F:推 evilmask:不推不行的大作完成了,感谢几位的辛苦 09/03 14:53
6F:推 hatebus:推 09/03 16:29
7F:推 pipw:太感谢了,正问完没多久而已。 09/03 17:26
8F:推 rurihome:重要的里程碑呀 必推 09/04 00:07
9F:→ ChrisTorng:建议除图片外还要加上以文字显示,因会需要复制该字 09/04 09:38
10F:推 zfs:推!Great! 09/04 11:16
11F:推 solaris10:给童大,已经加上去了 09/04 22:05
12F:推 whiteeye:太感谢了! 04/06 23:09
13F:推 ciwx:我怎麽会忘了推呢= =" 07/17 16:30