作者danny0838 (道可道非常道)
看板IME
标题[心得] 中文电脑输入法文化杂谭
时间Sun Jun 8 11:02:55 2008
(本文含Unicode字元,PCMan 2007 Combo可正常浏览)
中文电脑输入法文化杂谭
一、缘起
早在清末民初,中国积弱,列强横行之际,知识分子便总结汉字的缺点是
「三多五难」,「三多」是字数多、笔划多、读音多;「五难」是难认、难读
、难记、难写、难用。汉字形体多达数万,常用也有几千,不花个八年十年,
怎能逐一熟识?汉字形音背离,一字多音、一音多字,若非寒窗苦读,怎能一
一读出?汉字笔划繁多,较诸拼音文字,岂非龟兔赛跑?汉字书面语手口不一
,文法混乱,逻辑不确,典故繁多,怎能用得轻松?无怪知识蔚为特权,文盲
横屍遍野!
缘英美富强,举世正途拉丁,拼音成了语言文字进化的必然趋势;文法、
严谨与逻辑思辨则理所当然是工业化、现代化的进步之母。
鲁迅尝谓「汉字不灭,中国必亡」,善哉!包袱沉重如此,何不速速丢弃
?胡适则推行「我手写我口」,盖时人好用典故、砌叠文句、矫饰辞藻,而思
想空泛、言之无物、人人八股,故谓文字当通俗易懂,以阐释观点、表达思想
为重,然而昨非今是,今天白话文竟然一字一语,讲什麽写什麽。此外,为求
相容阿拉伯数字与西文,而有直写变横写,右左变左右;为求「精确」而有新
式标点符号,「你」「它」创造,「们」「被」浮滥;为求表音清楚,利於学
习,而有注音符号的发明和国语的统一。
脱汉之潮日本如是,甚至比中国要早。日文早有假名,拼音易如反掌,无
奈日音变化太少,同音字太多,只得勉而留之。然而难学难写实在兹事体大,
於是自1923年始,简化运动断断续续推行,笔划少好写,気転発関画;字数少
好学,编辑变编集,综合变总合,理智变理知。至今日本通行1945个「常用汉
字」,多次调整的「人名用汉字」目前约1000个。
国民政府时代,改革呼声依旧四起,钱玄同先生於1935年抱病起草了《第
一批简体字表》,录324字,本於社会通行的俗字,述而不作地减省常用字笔
划,如气无万个从。结果公布後反对声浪四起,戴季陶甚至「为汉字请命」,
向蒋介石当场下跪,於是次年暂缓推行。
国共分裂後,共方拉声更张,据此於1958年定下汉语拼音。但拉丁化不得
躁进,遂以逐步简化为之。1964年的《简化字总表》便大刀阔斧,只求简单,
结构美感不要,同音假借、会意自创、普通话类推样样皆来,比方面面干乾、
惊颜长开,共2235字,但偏旁类推往往无所适从。1977年又公布《第二次汉字
简化方案(草案)》,即「二简字」,道首变刀,原泉成元,盯钉成丁,帮邦
预予傅付停仃稀希萧肖歉欠蛋旦。为了这248规定字和605讨论字,全国一片混
乱,人人文盲。实验失败,1986年中共废除二简,重发《简化字总表》规范汉
字,至今不渝。而拉丁化之呼声,早已不知何处。
至於韩、越放弃了汉字教育,改采拼音。马、新则采用了大陆标准。
简化汉字并非失败,即便推行繁体字的台湾,手书仍充斥各式俗写简写,
只差不能忍受书上萤幕上面目狰狞的、形体僵硬的简化的印刷的白纸黑字罢了
。
1973年巴西,朱邦复先生就职於某文化公司,一朝同侪来了份翻译手稿,
曰急件速理,走前又说今晚上市,朱只当语言误会,奉命办理,联络各部。只
见全体动员,打字的打字,校对的校对,美工的美工,制版的制版,印刷的印
刷,装订的装订。十二小时後,卡车卡车的印刷书便冲进他的眼廉。
语言误会何在?当知铅字排版厂房极大,生产成本高昂,资源耗费甚钜,
工人训练费时,寻字困难无比,排字效率低落,如有缺字还得另刻。初排三个
月,再校再排,一年上市便该额手称庆,一日上市绝对天方夜谭,肯定是葡语
不熟,听错了罢!谁知西方打字机发达,只需几十字母,便可运指如飞,还要
怪打字太快,机器卡住,特制个QWERTY键盘拗手。汉字洋文,竟是一日
一载之遥,三多五难实在要加五:印刷难难难难难!
有感於此,他矢志救亡图存,回到台湾,他认为应由汉字的结构分析做起
,再以有限字键输出。仿会意与形声造字原则,把汉字分成「字首」与「字身
」,字首系归类,字身系描述,犹生物二名法之属名种名。剪下无数的字典、
报章,排列组合,归纳分析,再加以平均分配、编码,遂成「形意检字法」,
并申请专利。
工作之际听闻「电脑」,乃觉电脑资讯必定改造世界,政府行政不能缺,
图书馆必备,资料查找不可少,印刷也需要。编码既成,总得应用,於是他访
遍各家电脑公司与电机系教授,谁知竟异口同声曰:中文电脑不可行,不妨趁
此弃汉,「英语即将成为国际语,英文是世界上最理想的文字,我们要生存、
进步,就该全面放弃汉字,大家说英语!」
求助无门,只得自重,幸因缘际会,朱氏於1979年得接触电脑,於是自学
程式语言,首次将形意检字法用於输入,即「形意输入法」。蒋纬国将军以其
功媲仓颉,重名为「仓颉输入法」。
然而朱氏系统未被采用,业界浑然未知中文电脑是何方神圣。他於是自立
公司,多面合作,陆续推出【天龙中文电脑】、【中文汉卡】、【中文打字机
】,放弃仓颉输入法专利後又发展【聚珍大字库】、【聚珍中文整合系统】、
【微软中文视窗系统3.0】等等。
「中文电脑之父」努力有了成果,90年代中文电脑终於兴起,微软看上了
,以强大的手腕独占市场,国产软体与作业系统全面败阵。
二、困境
中文电脑勃兴,可以一日一书,中国人便从此过着幸福快乐的日子?革命
尚未成功,同志仍须努力,中文电脑限制仍多,说起来是五个盘根错节:缺字
、编码、排序、输入法、空间。
缺字由来已久,五大码(Big5)仅收13000多字,於是山没有峯,丝没有綫
,游锡方方土,酵素作酉每。为因应需求,有组字、有造字,有小字图,有扩
充字集,有新编码系统。可惜未经统一,好端端的文件换台电脑就面目全非;
若要上网搜寻,谷歌雅虎遇上「乱码」恐怕也爱莫能助。
万国码(Unicode)虽扩充许多,然而至今Windows XP系统的字体,尚不足
23000字。若要加字,还得向外国「电脑专家」申请。明知不够,怎不未雨绸
缪?只怪人性好逸恶劳,每个汉字要一笔一笔地描,编码要一字一字地编,谁
愿意为使用率不到0.1%的罕用字劳心费神?再者,早期电脑空间不过数十到数
百KB,只好节衣缩食,刖足适屦。
排序也兹事体大。众所周知,拼音文字查起字典轻而易举,中文字典则是
繁文缛节,总得一番翻前覆後,终於发现此字未收。科学书籍末尾的名词索引
,恐怕排版的人排得半死,使用的人还找到头晕,最好去翻原文书。
电脑排序通常依照内码,内码怎麽编排?部首归类很条理,但有多少人知
道命是口部,丘是一部,烦不是页部,变不是攵部,甚至书是乙部,丽是丶部
?笔划直觉许多,可惜数来麻烦,效率低落,不小心就错,同笔划字多如繁星
,甚至不同国家数法不同。於是资料夹下档案一百,英文轻轻松松地找,中文
气喘吁吁地爬。
当今电脑内码仍以笔划为主,基本堪用,偶尔缺字就造一个,位於何处?
须知中文字集有字面之分。「粘」在「铁」後面,因为粘是罕用字,和常用字
的铁不能一概而论;再如「发」置「吁」後,盖因简体字和繁体字字面不同;
同理,先来後到不同字面,使用者造字另一字面……难怪无论是中文网页或国
产软体,总得为档案立个英文别名。
最大的汉字集CNS11643收字高达76067,如何输入?牛「仔」裤、「法」
国、「癌」症、「睾」丸、「哈」巴狗、……十年前的标准读音已强迫作古,
十年後不知为何?教育部、微软、老百姓,谁说的算?而即便语言专家,会念
的恐怕也捉襟见肘,何妨试试国文老师:乂、丌、丼、囟、孖、泵、頞、嬲、
醪、蠿、龘、……。
再如科学新字胜羟羧巯,状声字呣欸诶哟,闽字呒阮佮囝,梵字唵吽誐佉
,粤字冇啲睇啱,日字辻畑峠気,复音字里瓩嗧圕,……汉字方言多、读音杂
,尚有非北京话,何从注音?即便心中有声,「力」音选字151,倘若字集八
万,不知700字从何找起?
资讯就是力量。科学可以,请学好英文;电脑可以,请学会英文。
三、仓颉
朱邦复认为,汉字具备六大「基因」:字形、字音、字义、字码、字序、
字辨。前三者耳熟能详,後三者则是资讯时代的必然需求。
他将汉字分析出600字首和9000字身,均分至各个键位,归纳出如下的「
仓颉字母」:日月金木水火土,斜点交叉纵横钩(竹戈十大中一弓),人心手
口,侧并仰纽方卜(尸廿山女田卜)。这些字母可和英文字母一一对应:AB
CDEFG,HIJKLMN,OPQR,STUVWY(X[难]和Z留作
特殊用途),正是中文的序号。
将文字拆成编码以供排序、检索,即是「仓颉检字法」,应用之一便是电
脑输入,即「仓颉输入法」。其规则首先是将字码变形,衍生出「辅助字形」
,作为拆字的基本单位(字根)。如水→氵,戈(点)→丶,廿→艹,田(方
)→囗。仓颉输入法的字根共有一百多。
第二,判断汉字结构,不能切割者为「整体字」;能切割者,取其最左、
最上、或最外者定为「字首」,其余定为「字身」。如「好」可切成「女」、
「子」,「女」是字首,剩下的「子」是字身。字身若可再切,同理可切成「
次字首」与「次字身」。
第三,依左而右、上而下、外而内的视觉顺序取码。整体字取4码(不足
则全取,超过则123尾。余类推)。其余各型为:字首2、字身3;字首2
,次字首2、次字身1;字首2,次字首1、次字身2。
如此即可见字拆码,如「未」拆为「十木」;「冲」拆为「水.中」;「
挂」拆为「手.土土.卜」;「国」拆为「田.戈.口一」。以之为内码,便可有
效地排序和编码汉字。
麻烦的是异字重码,必须极力避开。仓颉输入法依推出时间分一代至六代
,微软内建的是三代的修改,现今推广的是五代,最新的六代重名为「苍颉检
字法」,目前尚未公开,仅留供合作单位使用。五代的重码藉由前加「X」避
开,若超过五码则去尾,如「态」编码为「IPP」,「庇」为「XIPP」
,「忒」为「XXIPP」。六代则後加1~5避开,如「IPP」、「IP
P1」、「IPP2」。仓颉内码是一码5位元;一字为5码加7个识别位元
,共32位元;亦有压缩成16位元,以增进传输效率者。
朱氏系统内含【向量字形产生器】,可处理输入的仓颉码,并据之组成字
形。由於仓颉码有字首、字身之分,该系统将字首与字身的绘图指令分别储存
,再处理少数例外,如此便毋须一字一图,可大幅减省空间、增进效率。此外
将无字空间加以规则处理,便能组出无数新字。
朱氏於1995年更新的汉字字形产生器,仅占160 KB,可产生已存在字6万
以上,并可组成新字近1000万,如「阝川」、「鸟贱」。速度也相当惊人,在
450 MHz的电脑上,每秒可产生及显示16x16之字型46000个。可产生的字体尚
有明、黑、圆、宋、楷、隶等,大小变化任意,笔划粗细任意,笔划填充任意
。反观当今系统字集,新细明体合细明体,不到23000字,即占用8.6 MB;标
楷体字数相同,占5.1 MB;即便1500字的英文字体Times New Roman,也要
400 KB。朱氏系统若广泛采用,大概一切电脑、手机、医学仪器,以至各式电
子产品,均无缺字之虞。
将组字过程反转,即为辨识。先把点阵图转为向量,再辨识其中的仓颉字
形,即得仓颉码,也就是内码。如此点阵辨识或向量手写辨识皆可实现。
至此,字形、字码、字序、字辨问题一应料理。而前述中文电脑的五大困
境:缺字、编码、排序、输入法、空间,也悉数解决。这是1995年以前的事。
四、思维
朱邦复认为,汉字一字一音,最适合语音辨识,因此正积极发展。仓颉系
统采取形声字的「本音」,如诣取旨音、昙取云音,音变则另建资料库。而英
文连断字都有困难,例如「I Scream」和「Ice cream」发音相同。
但中文的与众不同在於「字义」。人人皆知block障,pre前,dog狗,何
以如此?古人如此。何以古人如此?……中文却本质意象,个个有凭有据。江
者,水之工也,是为大川;河者,水可通也,是为畅流水道。滑者,水流骨(
硬物)上,平顺无摩擦也。思者,田心,耕耘於心,想也。信者,人之言,古
之「消息」「函件」,言者须「无误」,听者须「不疑」也。
或云某某纯粹形声,某某实属讹传,某某穿凿附会。然而声音思维岂风马
牛不相及?古人为文可如此客观考据?学者今云说文「武」、「信」错解,改
是不改?求千秋万世客观事实乎?通古今文人心之所向乎?
代表行走的「彳」和代表停止的「止」合成「辵」,表示忽走忽停。「车
」和「辵」合成「连」,「道上之车,一辆接着一辆」,表示「相互接续」,
又引申定义为「陆军编制」。连再组合成词,所以「连任」表示「接续地任」
,「连忙」表示「接续地忙」。「素」是糸(丝)上有光泽,表示本色(白色
)的丝,所以代表本质、白色。如此「元素」、「素来」、「素色」、「抗生
素」、「茹素」、……皆可推知。而独体的象形文彳止水糸,则不妨翻翻古籍
,以明了起源为何。
梵语拉丁,变形数倍於英语;蒙满粤闽,语法词序也迥异北京。古时民族
众多,方言复杂,一字多义和各式倒装由此而生。书面语能被「约定俗成」,
被熟记、流传、共用,必须符合各家主观感受。
除外来语、部分假借字、纯形声字以外,常识、感觉与联想紧系了中文,
从独文到字,从字到词,从词到句,从句到章,从章到书,从书到人,到千千
万万的成语、典故。锡银铜铅铁、江河滑汤油并非孤立,星笙性苏产、晲倪阋
霓齯互相关系,汽车、卡车、火车、公车、货车分类井然,车轮、车架、车轨
、车站、车主概念清晰。文而字,字而词,始於「零件」,逐次组合,贯之以
一,死记何须?如此不仅能灵活运用、精炼文章,更能轻松学习,「学中文只
消三个月。」这便是朱氏《字易》与《基因字典》。
中文句法依循因果,自然多,定义少,宛如纸上动画,与电影「蒙太奇」
手法如出一辙。第一幕男女约会,第二幕她打他一掌,第三幕他独自啜泣,只
须画面幕幕,便可想而知。朱邦复设计了一套【图文系统】,只须输入中文,
便可合成动画,当然相关的模型、名物还得事先制成,较着名的成品是【记承
天寺夜游】(见文末参考连结)。他认为此套系统可大大减低成本,扬言「倾
销一亿套,一套1美金,连盗版都不怕!」网路动画的传输效率有如鸭步鹅行
,此系统若举世采用,片子1G成了文字十K,时空效率岂止提升百千?
看一个字,便浮现无数联想期待;看一个句,和前文产生绵密交织;看一
个段,和已知常识相互印证。前後贯通、融为一体,言外之意丰富,汉字滋乳
人类常识,章句跃着缕缕思维,对此分析、内观,便知人如何想、如何悟。
析出蕴藏的章法、思路,套用於电脑,便可理解人类语言。今日「人工智
慧」仍为西方主流,文法严谨,运算线性,速度有限,常识缺乏,应用范围局
限。人工智慧瓶颈仍多,如何建置数之不尽的常识、知识库?如何分析?如何
运算?如何高速运算?
朱氏系统以易经的二分原则,将汉字逐层分类、分析,得出了「概念结构
」。以「逃」字为例,先分主观、客观,得1(主观)。主观分成认识、行为
,得1(行为)。行为分生存、社会,得0(生存)。生存分官能、体能、动
作、生活,得01(体能)。体能再分八类,得011(追动)。前述的主观
、客观、认识、行为等等,自然是由众多汉字归结而成。11001011即
是「逃」的分类字元,再加上1个区别字元和2个定义字元,如此区区32位
元,便能包罗万象,以简御繁,空间极省,速度极快。
「逃」参照「辵」、「兆」,便衍出无数联想,在高速系统下,一面向後
取文,一面交织运算,01便微妙微肖地拟人思考。「思考」结果可作多种输
出,若符合人类所想,彷佛便有心智能力,即是成功的「人工智能」(不等於
「人工智慧」)。输出方式之一便是动画,亦即【图文系统】,假以时日电脑
或可和人类闲话家常。另外,理解也是语音输入或语音操作的必备条件,机器
若不理解,何从正确选字、无误执行?
以往认为知识必须精确、逻辑、严谨、条列、切割,才适合学习传播;然
而要灵活运用,记忆仍不可或缺。有些人开始同意,比起纲举目张的科学,村
妇讲的故事更印象深刻。心理学研究指出,汉字较诸拼音,大脑活化部位更广
,有「开发右脑」和「形象思维」之功。以往认为形象思维原始、落後,远不
如逻辑、线性思维;近来却认为形象思维创造力更大,处理复杂事物的能力更
强,着名的爱因斯坦即是这样的科学家。数学家解题、推公式,多半先靠感觉
,严密的推导往往只是说服你我的说辞。
何为思维的本质?何为智慧?如何能深专业之究竟,博天地之大道?
五、各家
继仓颉以後,注音和各种输入法纷纷出笼。放弃专利而内建於主流系统的
有【大易(1988)】、【行列(1992)】。注音的人工智慧版如【新注音】、【新
酷音】、【自然】;传统仓颉的改良版如【自由仓颉】、【快速仓颉】、【易
颉】、【乱仓打鸟】、【大新仓颉(2001)】;其他原创如【轻松(1993)】、【
呒虾米(1989)】、【华象(1987)】、……不胜枚举。中文输入法已超过百种,
着实百家争鸣。
呒虾米输入法以英文为字码,形音义对映字根,例如哈是OAO,粉是M
BD(米八刀),轰是CCC(C=Car=车);拆码只须123尾,毋须字首
字身。由於可练习英打,加上字根有趣,许多人为之着迷。她有ワサビ
(WaSaBi),也能红卫兵;可以ㄅㄆㄇ,也能㊣◆★;一码对八七,二码寸不夕
,简根俞并易、即是曼周幸。由於商利诱因,教师、打字选手一一入夥,比赛
成绩优异,职校相继选用。
行列也释出专利,系统内含。她用科学的键盘定位,使盲打得以速成。首
先定义十种基本笔形:1一,2└,3〡,4十,5┐,6丶,7ㄇ,8八\
,9/,0口。其次定位字根,例如「大」首笔是横,对应1行(QAZ行);末
笔是捺,对应下列(1-4为上,0或无为中,5-9为下),便得键位「Z」。接着
依笔顺拆字取码,例如「景」→「日〦口小」→[01 61 0- 38]→[0^6^0-3v]
(PY;C)。行列编码123尾,符号表[2^1]~[2^0],简码一级[1^2]、二
级[7^3v1]、……,其速度曾达215字/分,超过呒虾米的209字/分。不知是推
广不力或刻板印象,行列目前仍是小众。
免费的轻松输入法所求不同,她只要易学、轻松,不求盲打、神速。轻松
字根只有75,取码只要头尾,「等」是「竹寸」,「想」为「木心」,简单
易学。然而选字太多,於是挂上超大词库,「总统」四键,「原子笔」三键,
「柳暗花明」四键,「经济建设委员会」四键。其实专业领域亦有词库输入,
比方中医健保系统,输入「ㄙㄨㄊ」就能输出「四物汤」。
各家纷纷主张「易学」、「快速」、「多功能」,免不了还要暗示长江後
浪推前浪。大新仓颉又为继起新秀,她简化了传统仓颉的拆码规则,并把最常
用的字设计成最少的码数,摆在最好按的键位,又辅以助忆口诀,如一码字:
「国民与大会,不可以有不法的行为;这对成年人,在家业中,是大来发的一
年。」商人再度获胜,大新仓颉成功地易学神速,创下记录227字/分。大新育
了更多师资,养了更多打字快手,设计了更丰富的彩色书籍、互动软体和教学
影片;加上符号键盘、打繁出简、注音查询等强大功能;还有网上试用版无限
免费安装、购买者随处可用等商业手法,於是小学、国中、高中职纷纷跳槽,
甚至推广到仓颉已盛的港澳地区。
注音、拼音依旧永垂不朽,国小就会和我手写我口毕竟诱人。然而中文同
音字屡见不鲜,选字甚为不便,各式自动选词相应出炉。如今无法盲打依旧牵
制效率,校对选词依旧伤眼烦心;而语言能力每况愈下,不会写字和错字别字
逐年攀升,更是文化界的老生常谈。有人以注音输入法「正确发音」有限,常
用字得记「输入音」,不常用字无从输入,故曰注音「字根最多」,确言之成
理。
仓颉检字法难学、难用、速度不快,一向是众矢之的,尤以规则繁多且「
不合习惯」为最。比方「目」不拆「月一」而拆「月凵」,乃为保留字形特微
。「贫」不拆「分.贝」而拆「八.刀.贝」,比照「箬」拆法,乃为规则一贯
。「车」被支解为「十田十」,乃为视觉辨识方便,亦考量人人笔顺不一。
而在朱氏系统下,仓颉的「标准字形」严格,没有容错(一字多拆),标
点符号以内码输入(如前引号"「"是YYYAB或ZXCD),盖因依码组字
、字集无限,且仓颉即是内码。可惜换了平台便虎落平阳,主流系统喜旧厌新
,独锺三代,字型不符、编码错误又屡见不鲜,新手求助无门,往往败兴而归
。
虽未采为内码,仍有系统使用仓颉。如【中文全字库】可据以查字;【汉
字构形资料库】以仓颉和注音为部件外字的唯二输入法;【汉文库典】则以仓
颉系统为基,找字、排序皆是仓颉。仓颉处理汉字确实殊胜,字首字身独一无
二,重码最少,变化最丰,能拆码最多汉字,且有统一的排序准则。而就现实
面言,仓颉应用最广,电子辞典也有她的身影。
少了好的中文系统,许多人也意识缺字不便。中央研究院设计了【汉字构
形资料库】,此系统以「构字式」表达缺字,再配合程式将构字式转成对应的
字集,或转成图片,如此交换码便不致混乱。例如「码」是「石-码」(原「
横连」为造字,此以"-"代之),在程式中输入「石」或「马」均可寻得此字
。此系统的字集甚至包含甲骨文、金文、小篆文等,因此查找古字、罕用字、
缺字、异体字、简化字均相当方便,实为文字学者的研究利器。
另一套系统是【易符无限组字编辑器】,采递回向量组字,例如「俎」是
「=∥人人且」(以=∥代替原表横连、直连的符号),程式能合成缺字,可
达真正无限;某程度来说,组字使字集得以缩小,输入法的选字问题也得以疏
解。此程式极为轻巧,只约2.7 MB,未来潜力无穷。
实际上,仓颉还没征服缺字。虽用32位元,仍有理论上限;虽能组字千
万,缺字依旧人工;如有重码,还得设法避开;若重码过五……?朱氏系统实
在太鹤立鸡群,程式当做艺术,组合语言独尊,时空效率斤斤计较;专家说程
式太复杂、例外太繁多,业界说商机太小,民间说仓颉太难……结果落得自弹
自唱。
未来中文电脑能否缺字零、编码一、排序好、搜寻快、输入易、空间省、
今古字型多,甚或更进阶的功能,确实还有待努力。
六、展望
随着经济的发展,教育的普及,中国文盲不再九成;随着科技的发达,电
脑的进步,中文印刷不再龟速。华人笑颜渐开,汉字落後论逐渐销声匿迹。
举世国际英语,以其易学、好用、严谨、科学、进步。是耶非耶,不妨论
论。
或曰「汉语太难学,不可能作为世界语。」大陆人今云:「与大多语言相
比,汉语实在简单无比。英语有十二种时态,有不定词、分词、冠词,有陈述
、祈使、条件、虚拟句法,有复杂无比、迂回难解的独立子句、名词形容词副
词字句;而法语、德语、西班牙语、俄语、拉丁语,一个单词的格位、性别、
单复数、人称、不规则变形还可能多达七八十种。相比之下,汉语没有语法,
不受规则束缚,真是教人痛快。
「外国人普遍的学习体会是:汉语容易汉字难,通常几个月便能开口说话
,书面语则不易过关。中国人却恰恰相反,『英字』易如反掌——不就26个字
母么;『英语』则难于登天——十几年下来还开不了口,要么张嘴就错。汉语
的『书写系统』难学,英语的『说话系统』却耗时更甚。既然跨文化交际首先
以及主要是口头上的,而汉语恰恰又具有『语易文难』以及『语文分离』的特
征,这不就是一种速成的国际通用语吗?」
再曰「书面语够难学吧?」陆人云:「汉语也有拼音,完全可以在几个月
内会读会写,但中国人只把它当做汉字的音标、识字的工具、小孩儿的把戏。
汉字的确难学,却有一劳永逸的神效。通常小学毕业,读书看报便无问题。任
何新概念、新术语,都能用旧字拼装组合。
「英语何尝不想拼装组合?但是像inflammation of kidney实在长得不象
话,只好借些外语词根简化成nephritis,结果拼出的是全新的词,除了少数
内行,多数人不得其解,搞得老百姓连四面体、颈动脉、渗透作用、裸子植物
、精神分裂症、变阻器、订单、……这些基本东西都不会讲,难怪专家到处都
是。
「英语的辞汇量滚雪球地暴涨,单词也越来越长,于是有了缩写词,而缩
写词很快也超出记忆,需要编辑辞典以备查询。英语单词已破百万,缩写词也
有数千,还分分秒秒、无穷无尽地增加!据专家估计,受过良好教育的人,平
均辞汇量为23000;莎士比亚据说不过30000,这差异对阅读意味着什么,也就
可想而知。相比之下,常用汉字1000覆盖率92%,1500字95%,2000字98%,
3000字99%,日常使用的不过约7000字(繁简差异不大)。汉字确有『致盲』
的可能,拼音文字却使知识份子沦为『半文盲』,西方人不得不『活到老学到
老』,终生与词典为伍。有时查了半天,发现orchid不过是个花名,该多么令
人丧气?」
再曰「汉字容易忘记,比方就有大学教授不会写打喷嚏的『嚏』。」陆人
云:「那是因为疏于练习,美国人不也常忘记或拼错receive、bargain?就算
拼出来了,各门各派的念法也不一样。英语发音和拼词实在太不规则,何不改
革改革?比方ropes改成rowps,robes改成rowbz,roses改成rowziz;或干脆
全部改用国际音标,那不就精确无比?」
再曰「汉字笔划繁多,使用大大不便。」陆人云:「汉字虽多些书写之累
,却省去大量记忆之苦。一两个“blepharoplasty”和『眼睑整容术』,或许
看不出优劣,甚觉前者容易,后者累赘;一旦多至成千上万,便高下立见。考
量到使用便利,语言学者们早就参考过古代俗字草书,再依形声原则简化了汉
字。现在的汉字不只具备表意功能,还有形声的好学和易写的方便。尤其有了
计算机以后,一笔一划的书写之累都可不必,但是简化字让屏幕呈字不再模糊
不清,印刷墨水也大大简省。普通话、汉语拼音和简化字可说是世界上最先进
的语言文字。」
再曰「英语缩写词较中文方便许多,你看全世界都在用。」陆人云:「那
是他们不懂。英语缩写词信息量比中文低得多,不只难懂难记易搞混,发音也
没比较短,比方ppm就有至少十种解释。中共是中国共产党的缩写,英文的缩
写却是CCP;SARS中文只用非典;其他象高干、流脑、乙肝、……都是中文缩
写词。要不为了世界通用,CPU完全可以叫央元,DNA完全可以叫主核酸;未来
蛋白质甚至可以造个字『旦白』,互联网可以写成『互网』。英语字母二十六
,中文汉字好几千,谁能用二个字表达最多缩写?
「你要嫌笔划太多,搞英语那套也未尝不可,像GB2312就是『国标』的缩
写,HSK即是『汉语水平考试』,SX是山西,BJ是北京。代号全世界都用,不
是英语的专利,像整数代号Z就来自德语,eg. i.e. etc. Q.E.D都来自拉丁语
,元素符号Na、K不是英语,物理学的θ、λ、τ、μ也和英语无干。」
再曰「中文不精确、不科学,不能做学问。」陆人云:「这也是胡说八道
。中国小孩的数学水平是有口皆碑,中文九九乘法的背诵速度是世界最快,中
国的火箭照样可以精确升空,中国的原子弹照样可以精确爆炸。中国人在每个
领域都有专家,没听说哪位因中文「不精确」而搞不好研究,可见重要的是逻
辑思维的训练,而不是语言文字的革命。英语科技文献可以全面汉化,只要词
语统一、条理就行;不过逐句翻译的文本不贴近中国人的思想习惯,所以我们
的国家教材都是召集各领域的专家从新编写,学生从小学到大学读的都是中文
。而台湾、香港人除了喜欢溜几个单词儿炫耀炫耀,终究是个汉底子,纯粹用
英语思考、讨论、写论文的又有多少?
「而且中文的信息效率是世界第一,眼睛一掠就知道意思,英文还要在脑
子里先转成声音才能理解;英语发音又臭又长,汉语发音短小轻快,所以用中
文做学问更能提高思考速度。一般英语文长是中文的1.4倍,若是论语之类的
文言文,更要4到5倍,你说这是不是浪费纸张、浪费墨水?」
再曰「电脑处理汉字不方便,你看汉字不能编程!」陆人云:「那要怪计
算机太蠢,操不起高级的汉字。语言文字本来就不是为了机器而发明,日文一
音节一假名,是不是符号太多?谚文(韩文)是音节方块字,由字母二维组成
;天城文(印度文字)字母往主音的上下前后附加,是不是太无谓?阿拉伯文
字母有单用、词首、词中、词尾不同写法,母音通常不标,还要从右往左写,
计算机处理起来不也麻烦得要死?──这也突显方块字的优势,什么方向都行
,书脊不用侧头,表格也不用转书──即便是最线性的拉丁、希腊、西里尔(
俄文)字母,由於单词长短不一,要首尾对齐或不断词换行,也得花一番心思
。
「数学公式麻烦,可是哪本书印成x=(-b+sqrt(pow(b,2)–4*a*c))/(2*a)
?电脑绘图麻烦,难道要全面手绘?可见是工具进步来适应需求,而不是需求
降低去适应工具。你看二十年前大家还在废汉,谁晓得现在汉字输入、储存和
传送速度都超越了拼音文字?编程确实还没全面汉化,但用中文拼音也是完全
可行,只要大伙儿愿意。再过十年、二十年,谁又知道汉字编程不会超英赶美
?计算机的发展趋势是从10101100走向copy *.* d:\指令介面,再走向GUI图
形介面,而汉字不正是千年GUI么?」
有趣的是,早年扬言打倒孔家店,废弃传统,全盘西化的人,正操着简化
字和白到不行的白话文,一股脑儿为汉语汉字和孔老夫子辩护。而骄傲正体中
文,自居文化正统,国学程度好、英语能力强、学术地位高的专家学者,竟不
知身在何处?选修中文的欧美学生与日俱增,三岁的美国小孩被送去补习中文
,二十一世纪的炎黄子孙何去何从?你我任重道远。
=======================================================
参考连结
=======================================================
一、相关文章
【记承天寺夜游】(图文系统:文字转动画)
剧本:
http://open-lit.com/isvply/isvreadme.php?type=6
动画:
https://www.youtube.com/watch?v=exLWtpzM4b4
【字易】(汉字易学)
http://tinyurl.com/5hs9ve
【汉字基因字典】(仅为草稿)
http://www.cbflabs.com/book/dic/hanzijiyin2/a0.htm
【语言文字论辩集】(中英语文比较系列。简体)
http://www.yywzw.com/nlhe/index.html
二、仓颉系统及朱邦复的理论
【朱邦复工作室】(着作可免费阅读、下载)
http://www.cbflabs.com
【汉文库典】(中文字、词、成语典,以仓颉系统为基)
http://www.hanculture.com/dic/index.php
三、缺字及相关电脑技术
【缺字处理计画】(汉字构形资料库)
http://www.sinica.edu.tw/~cdp/service
【刹那搜寻工坊】(易符科技、无限组字编辑器)
http://www.ksana.tw/accelon
【中文全字库】(缺字查询及交换码)
http://61.60.106.73/web/index.jsp
四、输入法
【香港仓颉之友】(仓颉输入法教学)
http://www.ied.edu.hk/cj
【马来仓颉之友】(仓颉输入法程式)
http://www.chinesecj.com
【呒虾米输入法】
http://boshiamy.com
【行列输入法】
http://www.array.com.tw
【轻松输入法】
http://homepage.mac.com/eshen/ez
【大新仓颉输入法】
http://www.eztyping.com.tw
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.121.113.172
1F:→ ileadu:经查 呒虾米已经没专利了 剩着作权 06/08 11:21
2F:→ ileadu:失去专利原因:未缴专利费用 不过也快到期了.. 科科 06/08 11:23
3F:→ mone741120:阅, 还蛮有趣的文章 06/08 20:04
4F:推 kaoen:值得深思 06/09 00:52
5F:推 k7system:呒虾米现在想要东山再起(换第2代经营),不可小看 06/10 00:46
6F:→ k7system:大新仓颉连个Vista 64bit版都生不出来,有堕落摆烂趋势.. 06/10 00:47
7F:推 ileadu:可是他已经没有专利啦 有心人想做个类似的 也不是不行吧? 06/10 15:38
8F:推 Ross0916:呒虾米完蛋罗 十年内会比今天的大易还惨 06/13 22:13
9F:→ zenix:VISTA 有未来吗??? 06/14 03:20
10F:→ ileadu:不明白 Ross0916 为何这样说 即使有跟呒虾米像的输入法 06/15 12:03
11F:→ ileadu:呒虾米依然不会倒的吧... 06/15 12:03
12F:推 Ross0916:大易没倒呀... 06/15 12:05
13F:推 dra:我是行易的HENRY 郑重声明 因为重点是呒虾米"编码法"的着作权 06/17 13:56
14F:→ dra:所以"专利"部份 没有再去维护 06/17 13:57
15F:→ dra:如有人勇於尝试挑战 我们也一定会积极的处理 和 面对 谢谢 :) 06/17 13:58
16F:推 uranusjr:I scream 与 ice cream 发音相同?麻烦去问问你国中老师 06/17 18:44
17F:推 PHP5:ai skrim && ais krim 连在一起念发音没差,不用问国中老师 06/18 14:15
18F:推 justin7587:好实用! 06/20 23:03
19F:推 mickeyopq:好 05/23 03:54