设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 科技新闻 数码科技 查看内容

揭秘第一批中文电脑字体诞生进程,将汉字「搬」进数码设施有多难?

2021-6-30 12:25| 发布者: wdb| 查看: 46| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: 揭秘第一批中文电脑字体诞生进程,将汉字「搬」进数码设施有多难?,更多新款手机资讯关注我们。

.tech-quotation{padding:20px 20px 0px;bac千克round:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom:30px} .tech-con p a:visited{color: #4b729f !important;}

  新酷产物第一时间无偿试玩,另有许多优质达人分享独到生活经历,快来全球众测,体会各范畴最前沿、最有趣、最佳玩的产物吧~!下载消费者端还能得到专享福利哦!

  新的电子设施开机时,屏幕映出的首个交互页面,常常是体系言语抉择。

  你可行上下降动,抉择中文、英文、日文等高达上百种的文字。但假如将时间拨回 40 好几年前,这一选择可能唯有寥寥几种,况且无中文。

  我们国家文字的历史源远流长,但其数字化的历程却其实不久远。咱们此刻之是以能在电子设施上阅读中文,离不开开始消费庞大力气,将中文‘搬’至电脑上的那一群人。

  最近,斯坦福大学得到了 2500 余件现代华夏消息技艺收藏品,包括几十台珍稀的中文打字机、文字料理器和电脑等物品,堪称全球上第一大的华夏现代 IT 历史合集。

  ▲第一批中文数字字体模子。 相片来源:斯坦福大学

  该校一位探讨华夏历史的教授托马斯·穆拉尼(Thomas Mullaney),在这点珍贵的藏品里发觉了众多有趣的故事。此中就包括全世界第一批中文数字字体,是如何被制作出去的。

  托马斯将这段艰辛但充满艺术的历程,在《麻省理工科技点评》上讲述了出去。咱们也可以机会看见这种具备时期意义的历史片段。

  ▲托马斯·穆拉尼

  一辆机器带来的契机

  故事要从一种定单最初提起。

  20 世纪 80 年代初,美国图形艺术探讨基金会 (Graphics Arts Research Foundation) 寻到了路易斯·罗森布鲁姆(Louis Rosenblum),想请他的团队,为其正好开发的机器 Sinotype III 组建出中文字体。

  那时路易斯已年近 6 旬,毕业于麻省理工学院的他,是一名资深的印刷、排版行家。路易斯在 1965 年创立了 Photography Systems 企业,专门解决数字工程、摄影、利用数学等相干难题。

  ▲路易斯·罗森布鲁姆

  尽管路易斯及其团队之前和图形艺术探讨基金会有过屡次合作,但这一次为 Sinotype III 组建中文字体的名目,而是最棘手的。

  由于那时华夏还没最初制造私人电脑,其它国度或地域制造的电脑没有办法料理中文。是以在给 Sinotype III 这台实验性机器开发中文字体前,路易斯的团队须要先对苹果二代电脑(Apple II)编程,使其能够以中文运转。

  ▲Apple II。 相片来源:Wiki

  万事开头难。源于苹果二代的 DOS 3.3 操作体系,没有办法输入和输出汉字文本,是以必需得从头编程,包括编写一种中文文字料理器。为这,其团队消费了几个月的功夫。

  它们想出的解决方案,是先经过 BASIC 编程言语,编写一种‘Gridmater’程序,接下来将该程序放入苹果二代电脑的软盘上运转。如许一来,便能组建并保留汉字的数字位图了。

  继续,将设置没有问题汉字位图及其相应的代码,植入到体系数据库,便可让 Sinotype III 机器料理并显现中文了。

  ▲Sinotype III 显现器的照片,显现了 Gridmaster 程序和汉字‘电’。 相片来源:斯坦福大学

  这边插入一种背景常识。早期的数字字体,均采纳位图图像(也称点阵图像)来显现。

  这是一个常见的库存图像的形式,咱们今日相机拍摄的照片、截图,库存形式均隶属位图。一张 JPEG、BMP、GIF 等格式的相片,是由好多像素点构成,这点点通过排列和染色,便组成了图样。

  例如咱们可行在电脑上将一张相片放大,放大至必定水平,便可见到正方形的像素点了。早期的字体即是在必定尺寸的网格内,经过排列和染色造成的。

  ▲ 将左图的眼睛部位放大,便可见到像素点了

  中文数字字体,可比英文难做多了

  中文数字字体之是以难做,首要原因便是汉字的数量切实太多了,其次是由于汉字的字形非常繁杂多样。

  在计算机问世之初,工程师和设置师约定采纳尺寸为 5X7 的位图网格,来组建低分辨率的英文数字字体。如许一来,每个字符的尺寸约 5 个字节,计算机的内存不会有太多压力。

  在美国消息交换准则代码(ASCII)中库存的全部 128 个低分辨率字符,包括英文字母表中的每个字母、数字 0 到 9,以及常见的标点符号,共计须要 640 字节的内存。而那时苹果二代的内存为 64KB,可行轻松承载英文字体库。

  ▲ASCII 字符表

  而中文源于字形繁杂,在 5X7 尺寸的网格中会糊作一团,难以辨别。因而至少须要一种 16X16 或许很大的网格。

  这样换算下去,每个中文字符的尺寸至少有 32 字节。假如将 70000 个低分辨率的汉字打包,内存至少须要 2MB。再退一步,即使字库内只放进 8000 个经常使用的汉字,也须要约 256KB 的内存。

  这没有疑是一种大困难。由于在上世纪 80 年代初,许多数 PC 的总内存容量不超越 64KB,基本装不下巨大的中文位图字库。

  ▲Sinotype III 显现器的照片,显现了中文字体。 相片来源:斯坦福大学

  内存告急其实不是最令人首疼的,由于这可行随着 PC 软硬件的进步可以解决。如何在 16X16 的低分辨率网格中,缔造出既简单辨别又美观的中文字体,是更棘手的困难。

  为这,路易斯团队的设置师们花了数年时间,尝试缔造出满足低内存请求,且清楚易认,甚而有书法美感的中文位图。此中,凌焕铭(Huan-Ming Ling)和艾伦迪乔瓦尼(Ellen Di Giovanni)的奉献最为突出。

  它们先是借助纸、笔、修正液来手绘出汉字的位图,接下来借助上文提到的 Gridmater 程序将其数字化,植入到 Sinotype III 的体系中。

  ▲Sinotype III 显现的中文字体。 相片来源:Courtesy of Bruce Rosenblum

  制作背后的匠人精神

  托马斯教授在档案材料里,发觉了路易斯团队设置汉字位图的全进程。在一种装满格子图的册子中,纪录了设置师们是如何经过手绘散点符号来缔造汉字位图的。

  咱们都晓得,汉字的笔画却非‘横平竖直’的,入口笔画、出口笔画、笔画渐变都有着丰富的细节。这也是设置师们面对的焦点难题,即如何在 16X16 的方格中,尽可能将这类书法美展现出去。

  在这本格子册中,可行发觉每个汉字都通过设置师精心绘制。绿色的‘X’是开始的标志,交由汉字编辑审查后,假如哪里不够规范,路易斯及其团队便会用修正液盖住本来的标志,再用红色的‘X’标志上去。

  ▲‘背’字的位图草稿。 相片来源:斯坦福大学

  经验来回修改,通过终归确认的位图,才会输入至体系中。

  假如要满足客户的要求,字库里至少要包涵 3000 个经常使用的汉字。这种工程量关于团队来讲是相当大的。大家可能会猜测,它们能否会寻觅少许讨巧的方法。

  比如,关于相同偏旁部首的汉字,可行干脆将偏旁部首复制往日。就像下图中‘评’、‘读’皆是言字旁,按理说设置师只要要设置右侧不一样的部分就能。

  ▲中文位图草稿。 相片来源:斯坦福大学

  可是托马斯教授发觉档案里相似的事业体制很少。路易斯坚持请求设置师逐字调度、设置,以保证每个字的偏旁部首看起来是协调的。即使有些改动非常细小,令人难以察觉。

  托马斯教授依照档案材料从新复现了 Sinotype III 的中文字体。可行发觉同样为‘女’字旁的‘娟’和‘娩’,两个字的‘女’字旁的设置样式其实不一样。

  ▲可行瞧出‘女’字旁的不同吗? 相片来源:斯坦福大学

  ‘女’字旁在‘娟’字中的宽度为 6 个像素(网格),而在‘娩’字中唯有 5 个像素。此外‘娩’字的‘女’字旁撇点和撇的笔画,要比‘娟’多一种像素,视线上愈加修长。

  这样一点不苟的设置却非个例。托马斯教授在字体库里发觉了大批相似的事业,当他将位图的草稿与终归成品放到一同对照时,还能见到众多细小、有趣的浮动。

  例如在‘罗’字中,左下角的笔画开始所以 45°往下伸展的。但终归版本,笔画的尽头被‘拉平’,更适合书法的艺术感。

  ▲‘罗’字的两个版本,左为终归版。 相片来源:斯坦福大学

  可行瞧出,添加或缩减一种像素,便会对全体的平衡感、美感形成作用。这也表现出设置师们在创作第一批字体的艰辛,以及背后的匠人精神。

  实质上,16X16 的网格,关于创作中文字体其实不是很友好。最最重要的的难题是对称性。

  咱们晓得,大批的汉字是具备对称性的,而依据数学的准则,唯有奇数尺寸的体积地域,才能组建出十足对称的形体。

  因而,路易斯及其团队打算只应用 16X16 网格中的 15X15 地域,来实现汉字的对称。这进一步缩短了设置师的体积,对设置事业提议了更高的请求。

  ▲ 山、中、田的对称与非对称。 相片来源:斯坦福大学

  得益于团队孜孜不倦的努力和一点不苟的态度,Sinotype III 的中文字体库名目顺利达成。虽然它并没有商业发表,但它的确是全球上最早能料理、显现、输入输出中文的 PC 之一。

  自然,路易斯及其团队制作字体的方法,在当今的技艺语境下看起来仿佛太过古板和幼稚。此刻广大运用的 TrueType 字体技艺,能够以矢量形式存储字体,占用体积小、渲染快、显现成果清楚锐利。

  ▲现在多半字体均是 TrueType 格式。 相片来源:themex

  但正是它们运用‘笨方法’,逐字画稿、来回修改,才让汉字可以映入数字全球。而‘当代毕昇’王选院士主办研制的高分辨率字形消息紧缩技艺,愈是彻底地解决了汉字编码库存的困境。

  在这点前辈们的努力下,中文才无被互联网大潮落下,汉语拉丁化的理论被扫进历史垃圾堆。咱们今日能够运用中文在互联网上冲浪,应感谢它们曾为这付出的青春。

要害词 : 电脑中文
咱要反馈
全球科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关心)

更多数码科技关心咱们。