您的当前位置:首页正文

汉文和藏文在信息处理中的比较研究

2021-07-03 来源:星星旅游
《西藏科技》2013年10期(总第247期) 信息技术 汉文和藏文在信息处理中的比较研究 普顿 群诺尼玛扎西 850000) (西藏大学教务处;西藏大学现代教育技术中心,西藏 拉萨摘 要:汉文和藏文是中文信息处理的重要组成部分,文章利用比较法对两者的信息处理方法和技术手 段进行了研究,从而为今后进一步开展藏文信息处理深层次研究工作提供借鉴。 关键词:汉文 藏文 信息处理 比较法 1 引言 中文信息处理已经从20世纪50年代开始研究, 经过50多年的发展,已经取得了丰硕的研究成果,相 应的研发产品已经广泛应用于社会、经济、生活中的方 为语素文字。作为表意性文字,汉字虽然与汉语的语 音没有直接联系,但一旦成为记录语言的符号,它就不 仅与一定的意义相联系,而且也与相应的语音形式相 联系。汉字在语音上的特点是一个汉字基本上是一个 方面面。汉文作为中文信息处理的核心内容,不论在 字、词、句为主的基础研究,还是在输入输出、存储转换 以及信息检索、自然语言理解、机器翻译等信息处理方 音节,即每个汉字都具有声韵调(只有儿化音节除外), 因此也有人称汉字为语素一音节文字。在形体上,汉 字都是由基本笔画构成的方块字,而笔画构成方块字 的方式又是灵活多样的,可以是从左到右的组合,也可 以从上到下组合。笔画可以相间,也可以相交或相连, 即某些笔画可以构成不同形体,这些形体又可以作为 构字的一个部件出现在汉字的不同部位。按照汉字的 面都有很好的研究成果。藏文在中文信息处理领域虽 然起步较晚,但近几年借助国家强有力的支持,已经取 得了前所未有的发展和进步,成为国内少数民族语言 文字中信息处理能力走在前列的文种之一。在藏文信 息处理技术的研究过程中离不开与汉语、汉字信息处 理方法的借鉴与吸收,期间由于语言、文字本身的自身 特性也存在许多不同的处理方法和技术手段。文章利 用比较法对汉文和藏文在文字特点、技术处理方法及 手段方面的不同之处进行深入研究,从而为今后开展 字体来讲,汉字有甲骨文、金文、篆书、隶书和楷书五种 正式字体,以及草书、行书等辅助字体。按照造字法来 讲,汉字有:象形、指事、形声、会意、假借五种。此外, 汉字在记录汉语的形式上与表音文字也不相同。表音 文字记录语言一般以词为单位,词与词之间有空隙,因 而从书面形式上区分词很容易。而汉字记录汉语,以 更深层次的藏文信息处理研究工作提供借鉴。 2 汉文和藏文的文字特点不同 在现代汉语中,音节是语音中最自然的单位。每 个音节都有它的相对独立性,一个音节表示一个汉字 (部分儿化韵除外)。而汉字是与汉语中语素义直接相 联系的,是一种表意性很强的文字。除少数联绵词、音 译外来词中的字不具有意义,大多数汉字都具有一定 方块字为单位,字字相连,词与词之间没有空隙。现代 汉语中一个汉字基本上是一个语素,但不一定是个词。 因此,汉语在书面形式上区分是语素还是词有一定 难度。 藏文是一种拼音文字,属辅音文字型,包括辅音字 母、元音符号和标点符号3个部分_1]。藏语语音的特 的意义。汉字是书面形式中最小的表意单位,一个汉 字基本上相当于汉语中一个语素,因此有人把汉字称 点是单音节性,每一组单音节藏文字符串代表藏语里 的一个音节,每个音节代表藏语里的一个词或一个词 *基金项目:国家级实验教学示范中心建设项目(教高函[2009]5号) 77 信息技术 素。为此,我们把每个音节藏文字符组合称为藏字l 。 藏字由三十个辅音字母和四个元音符号(简称为元音) 拼写组合而成,元音不能独立书写,只能加在辅音字母 的上部或下部(图l中5的位置)。辅音字母中有些特 殊的辅音字母,以一个辅音(基字)为基础,加在前、后、 上、下,也可兼而有之。这些辅音按所处的位置分别命 名为前加字(图1中1的位置)、上加字(图1中2的位 置)、基字(图1中3的位置)、下加字(图1中4的位 置)、后加字(图1中6的位置)、再后加字(图1中7的 位置),其实它们都是构成藏字的一个字符,统称为藏 字的构件 ]。其中,藏文的纵向叠加只是在基字的上 下,而前加字、后加字、再后加字均为无叠加的单一辅 音字母。在现代藏文文法中,对藏文字符构成藏字有 很严格的约束,一个藏字可有一到七个字符构成,其中 基字是构成藏字必不可少的构件,其它位置上构件的 有无因字而不同,符合现代藏文文法的藏字称为现代 藏字 。 5 2 6 7 3 4 5 图1 一个藏字的构成 藏文不仅有横向拼写性,同时也有纵向拼写性(如 图1),由于藏字书写是非线性的二维阵列方式,增加 了藏文信息处理的难度。所以,在藏字字模库的建立 等藏文信息处理研究中把藏字纵向叠加的部分作为一 个整体来处理。把纵向拼写叠加的结构作为一个整 体,称为纵向组合字符,即藏字中的上加字、基字、下加 字、元音的组合(图1中的2、3、4及5)。现代藏字中, 藏文的纵向组合字符是一至四个字符叠加而成的,最 多不超过四层。把藏字纵向叠加的部分作为一个整体 后,藏字可以看出是前加字、纵向组合字符、后加字和 再后加字的线性的排列,这就与其它文字的处理方式 相同了,可减少藏文处理的难度。 3 汉文和藏文的编码方法不同 由于汉字是方块字,其笔画及偏旁的构成方式也 经历了很多变化,1994年出版的《中华字海》中收录了 8万多个汉字。但为了汉字的规范化,根据汉字的使 用率,从定量、定形、定音、定序四个方面进行了规范, 78 《西藏科技》2013年10期(总第247期) 并制定了汉字标准。信息技术汉字编码标准也是依据 这样的汉字标准制订,采用的是整字编码方式。1981 年,国家标准局发布《GB2312—80信息交换用汉字编 码字符集基本集》,收录6763个汉字,它是按一个汉字 占用2个字节编码。在基本多文种平面(BMP)中包 括27484个汉字 ]。已实现的BMP系统,其码位空 间不足以容纳全世界的文字,为此,ISO/IECLO646开 放了()(]组的16个辅助平面,其中第二辅助平面用于 汉字字符编码。这样,总的汉字编码空间超过9万,基 本可以满足汉字的需求。目前,第二辅助平面有 42711个汉字、329个汉字部首、1个汉字变体指示符、 12个汉字描述符,ISO/IEC10646的汉字总数超过 70,000,覆盖了《康熙字典》、《汉语大字典》等l6]。 GB18030采用单字节、双字节和四字节三种方式对字 符编码,收录了27,484个汉字。 藏文是从2O世纪90年代开始编码研究工作,于 1997年发布了《信息交换用藏文编码字符集》(Unicode) 国际标准和国家标准,该标准含192个编码点、169个编 码字符,该标准是按拼音文字编码规律对藏文进行编 码。标准规定了藏文基本字符的集合及其编码表示,分 为:藏文及梵音藏文字母、藏文符号、藏文数码、藏文组 合用字符和控制字符五大部分。根据藏文信息处理的 实际需要,从2001年开始进行了藏文信息处理技术编 码集扩充集的制定工作,藏文扩充集是按整字编码方案 进行编码,并成为基于基本集的新的国家标准,其中《信 息技术藏文编码字符集扩充集A》国家标准收录1536 个藏文的纵向组合字符,所有字符在GB13000.1—1993 的专用用户区编码,编码位置是0xF300 ̄0xF8FF,每个 字符的编码是2个字节;《信息技术藏文编码字符集扩 充集B》国家标准收录了5702个梵文的藏文转写字,所 有字符在GB13000.1—1993的专用字面OF上编码,编 码位置是0xF0000—0xF1645,每个字符的编码是3个 字节 】。这两个扩充集标准保持藏文国际编码标准中 藏文基本字符编码的基础上,对所有藏文上下结构构成 的组合字符全部进行编码,从而实现藏文信息处理的一 种编码方案。另外,当前移动通信高度发达,人们对移 动通信终端上实现藏文信息处理的期望很大,但由于移 动终端的系统资源有限,特别是许多非智能化的中低档 手机终端键盘上的键位又少,直接使用藏文国际编码或 国家编码进行藏文信息处理时,会增加系统处理的时间 复杂度。因此,也有人提出了基于索引技术的解决手持 《西藏科技》2013年10期(总第247期) 设备的藏文信息处理编码方法.并已经开发了相应的 产品。 信息技术 局设计有直接的关系。目前,不管是pc机上的藏文输 入,还是手持设备的藏文输入,实现技术都是基于键盘 输入法和手写输入法,还没有语音录入产品。在藏文 4汉文和藏文的字库制作方法不同 目前字库制作技术中主要有两类字体,点阵字体 ‘键盘输入方法方面,目前有按字丁输入藏文的方法,有 和适量字体。点阵字体也叫位图字体,其中每个字形 都以一组二维像素信息表示。由于位图的原故,点阵 字体很难进行缩放,特定的点阵字体只能清晰地显示 在相应的字号下。矢量字体中每一个字形是通过数学 曲线来描述的,它包含了字形边界上的关键点,连线的 导数信息等,字体的渲染引擎通过读取这些数学矢量, 然后进行一定的数学运算来进行渲染。这类字体的好 处是字体可以无限放大而不产生变形。矢量字体主要 包括Typel和TrueType等几类。 汉字是由一个或以上的字根以二维方式在特定的 空间、配置在一个正方块内而组成,即都是方块字,字 库也是按方块字制作。而藏文属拼音文字,同时它具 有上下组合的特点,因此藏文字库制作更复杂。目前 汉字和藏文字的字体主要也是点阵字体和适量字体。 汉字和藏文字库的具体制作方法有所不同。由于 汉字是方块字,因此不管制作点阵字库,还是矢量字库 都以长宽相等方式制作字库,而藏文是拼音文字,且考 虑到藏文的美观度和书写习惯,常用长宽不等长方式 制作字库。 5 汉文和藏文的输入法设计方法不同 由于汉字本身是由笔画组成的方块字,同时它可 以用汉语拼音注音,因此,汉字输入方法可以用笔画方 法录入,也可以用拼音方法录入,因此汉字进入计算机 的方法也无非是:键盘输入、语音录入、手写输入三种 方法,相应的技术也比较成熟,基于以上三种方法的汉 字输入法已经非常多,各种输入法的智能功能也比较 丰富。键盘输入方法又分为标准键盘输入和特制设备 输入两种,其中汉字键盘输入方法的种类有“形码、音 码、音形码、数字码”四类,我们常把“字根码”和“部件 码”及“笔形码”、“象形码”统称为形码,因为它们都是 按照汉字的字形来进行拆解、归类的。目前常用的输 入法中全拼输入法、智能拼音输入法、双拼输入法、紫 光输入法等都属于拼音输入法;五笔输入法属于笔画 输入法。 藏文一个音节对应的字符串为藏字,藏字之间用 字分符相分隔。在具体输入藏文时,不同的藏文输人 法其输入方式各不一样,跟输入法算法思路与键盘布 按音节输入藏文的方法,也有按词组输入藏文的方法, 相应的藏文输入软件已经比较多。因此,藏文的键盘 输入法技术已经比较成熟,但在藏文的语音录入、手写 录入以及输入法的智能化方面,目前远远落后与汉文 输入发展水平。 6汉文和藏文的排版方法不同 汉文由于是方块字,给排版带来了极大的方便,不 存在段字问题。而藏文是拼音文字,而且一个完整的 音节是以字分符为标记,在藏文的排版过程中,若一行 末尾不能完整放下一个藏文音节时,有可能出现一个 藏文音节分解在两行显示,即出现断字问题,这不符合 藏文的传统排版习惯,对藏文文本的阅读、美观等方面 影响很大,因此断字问题是藏文信息处理中必须解决 的一个问题,而且也是一个技术难点。目前解决藏文 段字问题的方法有三种:一种是一个音节在一行末写 不下时,该音节完整下移,在该行末补全藏文字分符, 以实现行端对齐;第二种处理方法是一个音节在一行 末写不下时,该音节下移,同时把该行文字两端对齐; 第三种处理方法是一个音节在一行末写不下时,只是 把该音节完整下移,当前行不做其他处理。利用以上 三种断字处理方法实现藏文自动排版的软件已经不 少,其中主要是藏文排版的专门软件或办公套件自带 的藏文自动排版功能。对于许多应用软件和系统软件 中处理藏文时,依然存在藏文的断字问题。今后,彻底 处理藏文断字问题的最好办法是在藏文输入法中自带 藏文自动排版功能。 7 汉文和藏文在识别技术中的处理方法不同 在文字识别技术中,由于汉字都是方块字,利用切 分法进行识别处理时,特征提取容易实现,且汉字都是 由固定的基本笔画构成,给特征匹配带来了一定的方 便。但在汉字手写识别技术领域,由于手写汉字字形 变化大,各种印刷体汉字识别特征和方法不完全适用, 缺乏一套行之有效的识别方法,这是汉字识别最困难 的问题。在国际上文字识别领域处理该类问题的方法 主要采用建立手写字符库的方式解决。在我国,由中 国科学院自动化所、清华大学、北京邮电大学和华南理 工大学等单位建立了各自的手写体汉字样本库,为汉 79 信息技术 字手写识别研究和提高手写识别率奠定了基础。目前 汉字识别方面,不管是印刷字体的识别,还是联机手写 识别,相应的识别软件和产品比较丰富,这些产品的识 别率也在逐步提高,基本能够满足人们对汉字识别处 理的相关要求,特别是手写识别技术在手持设备上的 汉字输入得到了广泛的应用。藏文识别技术研究由于 一《西藏科技 2O13年1O期(总第247期) 在信息处理方法仍处于“字、词处理”阶段,还没有进入 真正的“语言处理”阶段,因此今后藏文信息处理在进 步提高字、词处理能力的同时需要在识别技术、语音 高层面开展研究工作。 处理、机器翻译、自然语言理解、信息检索等为主的更 参考文献 [1] 尼玛扎西,李志蜀,拥措等.实现计算机藏文快速 输入的关键问题研究.电子科技大学学报,2009,38 其起步比较晚,加之藏文为了确保其字体美观度,藏文 印刷字体的外廓呈现出一定的曲线性,在藏文识别过 程中的切分和外围轮廓笔划特征提取带来了一定的难 度。另外,由于藏文字结构的特殊性,在应用传统识别 方法进行识别时识别率较低,识别效果较差。[7 近几 年,经过一批藏文信息技术研究人员的不懈努力和技 术攻关,在藏文印刷体识别方面已经有一些初步的研 究成果,研发了具有一定识别功能和效率的应用软件, 同时在藏文联机手写识别研究方面也有人开始涉足, 取得了一些基础性研究成果。 8 汉文和藏文在软件本地化方面的规模、市 场、产品数量存在天壤之别 汉文借助其国际国内巨大的市场和庞大的技术力 量,在软件本地化方面取得了前所未有的发展及进步。 目前,不管是系统软件,还是应用软件,本地化产品已 经非常丰富。在汉文软件本地化处理过程中,不管是 界面文字、提示信息以及资源文件的翻译,还是根据本 地人文特点和用户习惯进行本地化处理,其相应资源 比较丰富,技术手段比较成熟。目前,汉文软件本地化 面临的最大困难是各类集成开发工具的内核对汉字的 支持还不够,这些开发工具只是把界面部分翻译成汉 文,在开发工具中各种关键字及代码中支持汉文的较 少。藏文软件本地化工作,虽然有20多年的研究历 但由于其市场空间小、开发投入大,该领域的研发 产品较少。近几年,借助国家的一系列扶持政策,在藏 文操作系统、办公套件以及一些本地化工具研发方面 取得了突破性成果,相应的本地化产品已经广泛应用 于人们的日常生活与工作当中。但在资源文件的翻 译、软件人文化的处理等方面还存在许多不尽人意的 地方,需要进一步改进和升级。 9 结论 总之,汉文信息处理虽然在“字处理”阶段停留时 间较长,但其基础工作已经做得很扎实,目前已经提升 到语言处理层面,且其发展势头非常强劲,而藏文目前 80 (1):102—107. (23 江荻,董颖红.藏文信息处理属性统计研究.中文 信息学报,1995,9(2):37—44. [3] 于洪志.藏文内码扩展体系.中文信息学报, 1999,13(1):5O一58. [4] 高定国,龚育昌.现代藏字全集的属性统计研究. 中文信息学报,2005,l9(1):71~75. (53 GB2312—80.信息交换用汉字编码字符集基本 集.国家标准总局,1981,5. t63 周炜.民族语言文字信息技术发展背景下的藏文 编码国际标准研制工作.中国藏学,2007,2. [7] 欧珠,普次仁,大罗桑朗杰等.印刷体藏文文字识 别技术研究.计算机工程与应用,2009,45(24):165 172. [8] 马宁.少数文字信息处理的方法[J].内蒙古科技 与经济,2006,08. [9] 夏历.中文信息处理与语言文字规范化[J].语文 学刊,2002,06:75—78. [10] 陈玉忠,俞士文.藏文信息处理技术的研究现状 和展望.中国藏学,2003,4:97—107. [11] GB16959—1997.信息技术信息交换用藏文编 码字符集基本集.国家技术监督局,1997,9. (123 ISO/IEC10646.通用多八位编码字符集.藏文 编码字符集基本集.国际标准化组织,1997,7. [13]GB/T?20542—2006.信息技术藏文编码字符 集扩充集A.国家标准化管理委员会,2006,10. [14]GB/T22238—2008.信息技术藏文编码字符集 扩充集B.国家标准化管理委员会,2008,6. [15] 尼玛扎西,李志蜀,群诺等.一种在移动电话上 实现藏文处理的方法,四川大学学报(工程科学版), 2009,41(1):162~167. 编校 达娃 

因篇幅问题不能全部显示,请点此查看更多更全内容