• 热门标签

当前位置: 主页 > 航空资料 > 计算机 >

时间:2010-08-09 13:24来源:蓝天飞行翻译 作者:admin
曝光台 注意防骗 网曝天猫店富美金盛家居专营店坑蒙拐骗欺诈消费者

语由本地化版本支持,它们使用不同于Unicode 的编码。Linux 对Unicode 的支持尚在开始阶段,这在不久的将来会很有用。
XML 实用大全
第 165 页
7.3 传统字符集
不同地区的不同计算机使用的默认字符集各不相同,大多数现代计算机使用ASCII 码扩展字符集。ASCII 码含有英语字母表
和大部分常见的标点符号以及空格符的编码。
在美国,Mac 计算机使用MacRoman 字符集,Windows PC 机使用Windows ANSI 字符集,大部分Unix 工作站使用ISO Latin-1。
这些都是扩展的ASCII 码,支持西方欧洲语言,如法语和西班牙语中的多出来的字符,如ç 和?。在其他地区,如日本、希
腊和以色列,计算机仍然使用令人困惑的混合字符集,这些字符集几乎都支持ASCII 码加本地语言。
上述方法在Internet 上无效。当你正在互联网上阅读San Jose Mercury News,翻页时不会遇到几个用德语或汉语写的栏
目。但是在Web 页面上,这完全可能。用户将跟随一个链接并停止在一个日文界面的开始。即使网上冲浪者不懂日语,他们
如果能看到一个好的日本版面也是不错的。如图7-5 所示,而不是图7-2 显示的那种随意的字符组合。
XML 处理这个问题是通过把小的、局部的字符集以外的字符集合并到一个大的字符集中,并假定它包含了地球上现存语言(和
某些已消失的语言)使用的文字。这种字符集称为Unicode。同前面提到的一样,Unicode 是一个双字节字符集,它能表示
多种文字和几百种语言中的40,000 多个不同字符。即使不能全部显示Unicode,所有的XML 处理器必须识别Unicode。
在第6 章中学过,一个XML 文档分成文本和二进制实体两部分,每个文本实体有一种编码方法。如果编码在实体定义中没有
明确指定,就会默认为UTF-8��一种Unicode 的压缩形式,将保持纯ASCII 文本不变。因此,只包含普通ASCII 字符
的XML 文件,不会用处理Unicode 这种多字节字符集的复杂工具对它进行编辑。
7.3.1 ASCII 字符集
ASCII,即American Standard Code for Information Interchange(美国标准信息交换码),是一个原始的字符集,而且
是到目前为止最通用的。它形成了所有字符集必须支持的最主要部分。它基本上只定义了书写英语需要的全部字符,这些字
符的编码是0~127。表7-1 显示了ASCII 字符集。
表7-1 ASCII 字符集
编码 字 符 编码 字符 编码 字符 编码 字符
0 空字符(Control-@) 32 Space 64 @ 96 `
1 标题开始字符(Control-A) 33 ! 65 A 97 A
2 正文开始字符(Control-B) 34 “ 66 B 98 B
3 正文结束字符(Control-C) 35 # 67 C 99 C
4 传输结束字符(Control-D) 36 $ 68 D 100 d
5 询问字符(Control-E) 37 % 69 E 101 e
6 应答字符(Control-F) 38 & 70 F 102 f
7 响铃字符(Control-G) 39 ‘ 71 G 103 g
8 退回字符(Control-H) 40 ( 72 H 104 h
9 制表符(Control-I) 41 ) 73 I 105 i
10 回行字符(Control-J) 42 * 74 J 106 j
11 垂直制表符(Control-K) 43 + 75 K 107 k
12 进纸字符(Control-L) 44 , 76 L 108 l
XML 实用大全
第 166 页
13 回车字符(Control-M) 45 - 77 M 109 m
14 移出字符(Control-N) 46 . 78 N 110 n
15 移入字符(Control-O) 47 / 79 O 111 o
16 数据连接转义符(Control-P) 48 0 80 P 112 p
17 设备控制1(Control-Q) 49 1 81 Q 113 q
18 设备控制2(Control-R) 50 2 82 R 114 r
19 设备控制3(Control-S) 51 3 83 S 115 s
20 设备控制4(Control-T) 52 4 84 T 116 t
21 拒绝应答字符(Control-U) 53 5 85 U 117 u
22 同步等待字符(Control-V) 54 6 86 V 118 v
23 传输块结束符(Control-W) 55 7 87 W 119 w
24 删除字符(Control-X) 56 8 88 X 120 x
25 媒体结束符(Control-Y) 57 9 89 Y 121 y
26 替换字符(Control-Z) 58 : 90 Z 122 z
27 转义字符(Control-[) 59 ; 91 [ 123 {
28 文件分隔符(Control-\) 60 < 92 \ 124 |
29 组群分隔符(Control-]) 61 = 93 ] 125 }
30 记录分隔符(Control-^) 62 > 94 ^ 126 ~
31 单元分隔符(Control-_) 63 ? 95 _ 127 delete
在0~31 之间的字符是非打印控制字符,包括回车、送纸、制表、响铃和其他类似的字符。其中有许多字符是以纸为基础的
电传打印机时代遗留下来的。例如,回车在字面上表示把支架移回到左边空白处,就像在打字机上做一样。送纸使打印机滚
筒向上移动一行。除了提及的几个字符外,其他的这些字符使用率不高。
人们所碰到的大多数字符集可能是ASCII 的扩展字符集。换句话说,它们定义在0 到127 之间的字符同ASCII 一样,只是增
加了127 以后的字符。
7.3.2 ISO 字符集
ASCII 中的“A”代表美国,因此ASCII 码专门用于书写英语,严格来说是美式英语也就不足为奇了。ASCII 码中缺少£、ü、?
和许多书写其他语言和地区所需的字符。
可通过指定128 以后的更多字符扩展ASCII 码。国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII 码基础上
增加了其他语言和地区需要的字符。其中最突出的是ISO8859-1,通常叫做Latin-1。Latin-1 包括了书写所有西方欧洲语
言不可缺少的附加字符,其中0~127 的字符与ASCII 码相同。表7-2 给出了128~255 之间的字符,同样前32 个字符是极少
使用的非打印控制字符。
XML 实用大全
第 167 页
表7-2 ISO 8859-1 Latin-1 字符集
编码 字符 编码 字符 编码 字符 编码 字符
128 未定义 160 不可分空格 192 À 224 À
129 未定义 161 ? 193 Á 225 Á
130 Bph 162 ¢ 194 Â 226 Â
131 Nbh 163 £ 195 Ã 227 Ã
132 未定义 164 ¤ 196 Ä 228 Ä
133 Nel 165 ¥ 197 Å 229 Å
134 Ssa 166 B 198 Æ 230 Æ
135 Esa 167 § 199 Ç 231 Ç
 
中国航空网 www.aero.cn
航空翻译 www.aviation.cn
本文链接地址:XML实用大全(52)