第七百零三章 字库
重生之乘风而起正文卷第七百零三章字库“我们所有人里,还真就只有你能干,”周至说道:“你知道现在已经可以用电脑打印书籍了吧?”
“嗯,知道,局里现在都有电脑打字员了,听说那机器很贵,领导都不让一般人碰。”
“那你知道你们局里那机器,现在一共能够打印多少个字吗?”
“不是所有汉字都能打吗?”
“当然不是,现在大家使用的,还是由中国国家标准总局八零年发布,八一年实施的一套国家标准,标准号是GB2312—1980。基本集一共收入汉字六千七百六十三个。”
“那我们国家一共有多少汉字啊?”
“不算简化后的简体汉字,《康熙字典》里边收录的汉字,一共是四万七千零三十五个。”
“差这么多?”冯雪珊感到十分震惊:“连零头都不到?”
“是啊。”周至说道:“当然这和现在存储单元昂贵,简化字推行方便都有关系,但是将来图书实现电脑排版,要用电脑整理古籍的话,目前所用的字库是绝对不行的。”
“所以……”
“所以我有一个想法,设计一套《康熙字库》出来,用于将来的古籍电脑排版工作。”
“不行不行,我不认识那么多的字……”冯雪珊一听就觉得头大。
“不用你认识它们,会照着描写就行了。”周至笑了:“字库设计的一个重要工作,首先就是单字和笔画、部首设计;”
“之后通过扫描设备将设计图稿转化为数字化图像,存储于计算机中;再通过数字化拟合,得到字形的矢量轮廓。”
“接下来就是扩展设计,以拼合的方式设计其他单字。”
“最后再将所有得到的字赋予编码,将其转换成特定数学函数描述字形轮廓的文件格式,再加以指令,控制其字形的显示效果和排版效果,就形成字库了。”
“我越听越听不懂了……”
“听不懂也没关系,单字和笔画、部首我会找齐,然后就要拜托你用仿宋体、宋体、楷体和黑体,在我给你提供给你的栅格纸上,将它们描绘出来。”
“鉴于我们现在还没有相关的电脑设备和字体设计软件,因此之后的扩展设计工作,我们也只能先通过手工来完成。”
“也就要是将所有的字一一地写出来。”
“你要做的,就是这些,剩下的校对、检测,我会来完成。”
“最后我会将所有的字稿带去蜀都,带去首都,通过最原始的扫描匹配方式,生成我们需要的字库。”
“咱们这么做的目的,是设计出一个能够涵盖所有已知的繁体汉字和简化汉字的大字库出来,从而一劳永逸。”
“而今后的事情就简单了,我们可以做做减法,搞出一些删减版来,供人自由选择,以解决字库过于庞大和电脑存储资源不足的矛盾。”
“雪珊你说,将电脑字库从六千多字扩充到四万七千多字,这是不是关系我们国家国计民生的大事儿?”
“只是写字那我还行。”冯雪珊知道自己要干什么之后,倒是放松了下来:“就算五万个字,我一天写一百个,用不了两年也能够完成。”
“嗯,现在睡觉,等回去我们就开始这项工作。”
try{ggauto();} catch(ex){}
“好。”
这项工作是周至答应过辜老的,当时周至曾经跟辜老说过,如果等到他进入大学,国家依旧没有推出相应的字库的话,那这项工作便由他来完成。
当然在没有设计软件的情况下,前期的准备工作只能用手工,那注定将是繁琐的。
仅仅是将近五万个汉字复刻到十六乘十六的三十二比特信息量的栅格当中去,在没有软件辅助的情况下,会是非常耗时且枯燥的工程。
这项工作还相对简单,且只是基础。
有了基准字模之后,才谈得到利用软件和基础字型设计,通过数字化拟合,自动生成不同的字体。
但是只要将基础工作做好,剩下的就可以通过计算机软件来完成了。
周至在前期已经做了一些工作,主要就是将GB2312—1980的简化字和康熙字典繁体字结合到一起,构成这个字库所需的全部汉字。
至于附加的英文字母和常用字符,已经不属于他的专业了,将来让别人补充就好。
两相结合再去除重复,冯雪珊信口说的五万字,其实和事实非常接近。
周至之所以想要插手这件事儿,是因为现在的国人对这个事情没有什么经验,因此走入了一个误区。
汉字是象形文字,和拉丁字母的区别就在于字码太多。
如今主流的做法,就是简化,只将常用字列入输入法中,以应对绝大多数时候的需要。
但是周至认为,这样的做法并不太好,因为占用存储空间的其实是五万个字的字模,而并非代表它们的编码。
因此大可以一步到位,将大中华区包括港岛、宝岛、新马、岛国、朝国等依旧在使用汉字的地方,以及使用大量汉字符号的地方,将所有字型都收集起来,先将大字库编好。
具体到再上一层的应用,则可以通过从基准字库中提取子集的方式来完成。
一开始的时候大字库肯定只有专业的印刷厂,出版社才用得上,今后随着存储设备价格的狂降和设备容量的指数级扩充,存储空间不再是卡个人电脑价格的瓶颈后,最终这套字库还是能够走入千家万户。
这个设计思路就从传统西方的设计思路当中跳了出来,也不再仅仅是头痛医头脚痛医脚,而是一步到位,以免在今后不断再升级调优换版本。
然而搞笑的是,这件事情即便在周至重生之前,国家都没有完成。
这就是工科典型的实用主义和文科典型的理想主义之间的思路差异,也是国人在设计字库的时候,少了文科学者跨学科参与联动发挥影响力造成的。
不能不说最终这成了一个遗憾,将华夏所有文字纳入一个电脑字库,这件事情值不值得做呢?
答案是显而易见的,只不过急于追赶世界文明数字技术大发展的华夏一族,现在还一切从实际出发,脑子里想的就俩字——“能用”,还顾不到这上头来。
如今甚至已经有了一种预言,那就是未来的信息化世界里,将没有汉字的存在;这门美好的语言,最终会在信息世界里消失;而华夏民族,也会因为使用如此复杂的象形化文字,在信息科技的大发展中,再次沦为落后民族。
而周至想要告诉那些人的,是你们全特么在放屁。
请记住本书首发域名:www.qiwenxue.com。奇文学手机版阅读网址:http://www.qiwenxue.com