• 热门标签

当前位置: 主页 > 航空资料 > 计算机 >

时间:2010-08-09 13:24来源:蓝天飞行翻译 作者:admin
曝光台 注意防骗 网曝天猫店富美金盛家居专营店坑蒙拐骗欺诈消费者

页,而且所用的浏览器懂得Unicode,如XML 浏览器,那么就可以在同一页面中包含不同语种的字符。
浏览器不需要区分不同的编码,如Windows 1251、ISO 8859-5 或者KOI8-R。浏览器假定网页都是用Unicode 编写的。只要
双字节字符集有容纳不同字符的余地,就不需要使用多种字符集。因此,浏览器也不必检测使用的是哪一种字符集。
XML 实用大全
第 163 页
.2 文字、字符集、字体和字形
大部分现代人类语言都有各自的书写形式。用于书写一种语言的字符集称为一种文字。文字可以是语音字母表,也可以不是。
例如,汉语、日语和韩语由能够表示整个词汇的表意文字字符组成。不同语言经常共用一些文字,或者有一些细小的改动。
例如,汉语、日语和韩语实质上共用相同的80,000 多个汉字,尽管大多数字符在不同的语言中表示的意义不同。
单词Script 也经常用来指用非类型化和非解释语言写的程序,如JavaScript、Perl 和TCL。本章中的Script
指书写一种语言使用的字符,不是指任何一种程序。
一些语言能用不同的文字表达。塞尔维亚语和克罗地亚语实际是相同的,通常被称作Serbo-Croatian。但是,塞尔维亚语
使用经过修改的古斯拉夫文字,克罗地亚语则使用经过修改的罗马文字。只要计算机不想得到所处理的文字的意义,处理一
种文字和处理用这种文字所编写的任何一种语言都是相同的。
遗憾的是,单独的XML 无法读取一种文字,计算机要处理一种文字需要四个要素:
1. 与文字对应的一种字符集
2. 用于该字符集的一种字体
3. 该字符集的一种输入方法
4. 理解该字符集的一个操作系统或应用程序
这四个要素只要缺少其中之一,就不能在这种文字环境下工作,尽管XML 能够提供一个足可以应急的工作环境。如果在应用
过程中只丢失了输入法,还能够读取用该文字写的文本,只是不能用这种文字书写文本。
7.2.1 文字的字符集
计算机只懂得数字。在它处理文本之前,必须用一种特定的字符集将文本编码成数字。例如,在大家熟知的ASCII 字符集中,
‘A’的编码是65,‘B’的编码是66,‘C’的编码是67,以此类推。
这些是语意学编码,不提供样式或者字体信息。C、C 或C 的编码都是67。有关如何画出字符的信息存储在别处。
7.2.2 字符集的字体
字符集所采用的各种字形的总和形成一种字体,通常包括一定的尺寸、外观和风格。例如C、C 或C 是同一字符,只是书写
的形状不一样,但其意义是相同的。
不同的系统存储字形的方式不一样。它们可能是位图或矢量图,甚至是印刷厂中的铅字。它们采用的形式与我们无关,关键
是字体可以告诉计算机如何从字符集中调出每一个字符。
7.2.3 字符集的输入法
输入文本需要一种输入法,讲英语的人不需要考虑它,只要敲击键盘就可以输入。在大部分欧洲国家也一样,只需要在键盘
上附加几个元音变音、变音符号。
基本上,古斯拉夫语、希伯来语、阿拉伯语和希腊语比较难输入。键盘上的按键数目有限,一般不够阿拉伯和罗马字符,或
者是罗马和希腊字符使用。假定需要两种字符,键盘上有一个希腊字符锁定键能使键盘在罗马字符和希腊字符之间来回切换,
XML 实用大全
第 164 页
那么希腊字符和罗马字符就能以不同的颜色印在键盘上。这个方案同样适用于希伯来语、阿拉伯语、古斯拉夫语和其他非罗
马字符集。
当碰到表意文字如汉语和日语时,上述方法确实不管用。日语的键盘可容纳大约5000 个不同的键,但还不到日语的10%!
音节、语音和部首表示法能够减少按键的数目,但是键盘是否适合输入这些语种的文本呢?同西方相比,正确的语音和手写
体识别在亚洲有更大的潜力。
语音和手写体识别还没有达到足可以让人信赖的程度,目前输入单个字符的方法大部分是使用键盘上的多个键序列。例如,
输入汉语的“羊”字,必须按下ALT 键并按带有(~)的键,然后输入yang,单击回车键。这种输入方法会显示出一列发音
与yang 差不多的汉字。例如:
佯楊易暘楊洋瘍羊詳錫陽
接下来就可以选择需要的那个字符“羊”。对于不同的程序、不同的操作系统和不同的语言如何把键入的键值转换成文字字
符,如“羊”所使用的GUI(图形用户界面)和翻译系统的细节是不同的。
7.2.4 操作系统和应用软件
主要的Web 浏览器(Netscape Navigator 和Internet Explorer)能很好地显示非罗马文字。如果潜在的操作系统支持给定
的一种文字并存储有相应的字体,Web 浏览器就能够显示这种文字。
MacOS 7.1 及其新版本能够处理当今世界上常见的多数文字。但是基本操作系统仅支持西方欧洲语言。汉语、日语、韩语、
阿拉伯语、希伯来语和古斯拉夫语只能从语言工具中获得,每一种100 美元。同时提供相应语言的字体和输入法。也有印度
语工具包,用来处理印度次大陆上常见的梵文、吉吉拉特语和Gurmukhu 文字。MacOS 8.5 增加了对Unicode 可选而有限的
支持(多数应用软件都不支持Unicode)。
Windows NT 4.0 把Unicode 当作本身的字符集使用。NT 4.0 能够很好地处理罗马语、古斯拉夫语、希腊语、希伯来语和其
他几种语言。Lucida Sans Unicode 字体覆盖了最常用的1300 种Unicode 中的大约40,000 多个字符。Microsoft Office 97
包括汉语、日语和韩语字体,可以安装它来读取这些语言的文本(在你的Office CD-ROM 上查询Valupack 文件夹中的Fareast
文件夹)。
微软宣称Windows 2000(以前称为NT 5.0)将包含能覆盖大部分中-日-韩文字的字体和相应的输入法。但是他们同样许诺
过Windows 95 包含Unicode 支持软件,尽管失败了。因此不必焦虑等待。当然,如果所有的NT 版本能够提供世界性的支持
软件是非常好的,就不必再依赖于本地化了。
微软的消费类操作系统,如Windows 3.1、95 和98 不完全支持Unicode。相反它们需要依靠能处理基本英文字符和本地化
文字的本地化系统。
主要的Unix 变体包含不同等级的Unicode 支持软件。Solaris 2.6 支持欧洲语言、希腊语和古斯拉夫语。汉语、日语和韩
 
中国航空网 www.aero.cn
航空翻译 www.aviation.cn
本文链接地址:XML实用大全(51)