• 热门标签

当前位置: 主页 > 航空资料 > 计算机 >

时间:2010-08-09 13:24来源:蓝天飞行翻译 作者:admin
曝光台 注意防骗 网曝天猫店富美金盛家居专营店坑蒙拐骗欺诈消费者

续表
文 字 范 围 目 的
古斯拉夫 1024-1279
基于ISO 8859-5 上的语言,俄语和多数斯拉夫语(乌克兰语、Byelorussian 等),
前苏联的许多非斯拉夫语言(Azerbaijani,Ossetian,卡巴尔德
语,Chechen,Tajik 等).几种语言(库尔德语,阿布哈西亚语)需要Latin 和古斯
拉夫字母
美国 1326-1423 美语
希伯来 1424-1535 希伯来语(古典和现代)、依地语、Judezmo、早期美语。
阿拉伯 1536-1791 阿拉伯语,波斯语、Pashto、Sindhi、库尔德语和早期土耳其语
梵文字母 2304-2431
梵语,北印度语,尼泊尔语和印度次大陆语言,包括:
Awadhi,Bagheli,Bhatneri,Bhili,Bihari,BrajBhasha,
Chhattisgarhi,Garhwali,Gondi,Harauti,Ho,Jaipuri,
KachchhiKanauji,Konkani,Kului,Kumaoni,Kurku,Kurukh,
Marwari,Mundari,Newari,Palpa,and Santali
孟加拉语 2432-2559
一种北印度文字,使用于印度的西孟加拉州和孟加拉国的孟加拉语、阿萨姆语、
Daphla、Garo、Hallam、Khasi、Manipuri、
Mizo、Naga、Munda、Rian、Santali
Gurmukhi 2560-2687 Punjabi
Gujarati 2686-2815 Gujarati
Oriya 2816-2943 Oriya、Khondi、Santali
泰米尔语 2944-3071 泰米尔语和Badaga、使用于南印度、斯里兰卡、新加坡和马来西亚部分地区
Telugu 3072-3199 Telugu、Gondi、Lambadi
埃纳德语 3200-3327 埃纳德语、Tulu
Malalayam 3326-3455 Malalayam
泰国语 3584-3711 泰国语、Kuy、Lavna、巴利语
老挝语 3712-3839 老挝语
西藏语 3840-4031 喜玛拉雅语包括西藏语、Ladakhi 和Lahuli
乔治亚语 4256-4351 乔治亚语,黑海边乔治亚前苏维埃共和国语
Hangul Jamo 4352-4607 朝鲜、韩国音节的字母组成部分
Latin 的附加扩展集 7680-7935
标准的Latin 字母如E 和Y 与可识别的记号组合在一起,除了用于越南语元音
中,很少使用
希腊语扩展集 7936-8191 希腊字母与可识别记号的组合,用于正统的希腊语中
通用的标点符号 8192-8303 各种标点符号
上标和下标 8304-8351 普通的上标和下标
货币符号 8352-8399 货币符号,一般在别的地方找不到
用于符号的组合记号 8400-8447 给多个字符做记号
像字母的符号 8446-8527 像字母的符号,如™
数表 8526-8591 分数和罗马数字
箭头符号 8592-8703 箭头符号
数学符号 8704-8959 不常出现的数学运算符
XML 实用大全
第 173 页
技术杂项 8960-9039 APL 编程语言需要的符号和其他各种技术符号
控制图形 9216-9279 ASCII 控制字符图形,常用于调试
光学字符识别 9280-9311 在打印支票上的OCR-A(光学字符识别)和MICR(磁性墨水字符识别)符号
续表
文 字 范 围 目 的
附加字符 9312-9471 放在圆和括号中的字母和数字
画方框字符 9472-9599 用于在等间距终端上画方框的字符
块元素 9600-9631 用于DOS 和其他用途的等间距终端图形
几何形状 9632-9727 正方形、菱形、三角形等
杂项符号 9726-9983 纸牌、象棋、占卜等
Dingbats 9984-10175 Zapf Dingbat 字符
CJK 符号和标点 12286-12351 用于中国\日本和韩国的标点符号
平假名 12352-12447 日文字母的草体.
片假名 12446-12543 非草体的日文字母,通常用于西方的外来词汇,像"keyboard"
汉语拼音字母 12544-12591 中国的发音字母表
Hangul Compatibility Jamo 12592-12687 与KSC 5601 代码兼容的韩国字符
Kanbun 12686-12703 在日文中用于指示古典中文的阅读顺序的记号
括起来的CJK 字母和月份 12800-13055 用圆和括号括起来的Hangul 和片假名字符
CJK Compatibility 13056-13311 只用于编码KSC 5601 和CNS 11643 的字符
统一的CJK 象形文字 19966-40959 用于中文、日文和韩文的Han 象形文字
Hangul 音节 44032-55203 一种韩国音节
Surrogates 55296-57343 目前还不能使用,将来可用于扩展Unicode,使它包括超过百万的字符
个人使用 57344-63743 软件开发者可以在此包含自己的术语,与正在执行的字符不同
CJK 兼容性象形文字 63744-64255 为了保持与现有的标准的一致性如KSC 5601,而使用的一些汉字象形文字
字母的表现方式 64256-64335 使用于Latin、美语和希伯来语中的连字和变种
阿拉伯表象形式 64336-65023 各种阿拉伯字符的变种
组合半记号 65056-65071 把跨越多个字符的多个可识别记号连成一个可识别的记号
CJK 兼容性形式 65072-65103 用于台湾汉字象形文字
小型变种 65104-65135 用于台湾的ASCII 标点符号的小的版本
附加的阿拉伯表象形式 65136-65279 各种阿拉伯字符变种
半宽和全宽形式 65280-65519 能够在中文和日文的不同代码间转换的字符
特殊字符 65520-65535 字节顺序记号和零宽度的非中断性空格,常用于Unicode 文件的开始
7.4.1 UTF-8
Unicode 使用双字节表示一个字符,因此使用Unicode 的英文文本文件大小是使用ASCII 码或Latin-1 文件的两倍。UTF-8
是一个压缩的Unicode 版本,使用单个字节表示最常用的字符,即0 到127 的ASCII 字符,较少见的字符使用三个字节表示,
特制是韩国音节和汉字。如果主要使用英文,UTF-8 能够将文件压缩为原来的一半。如果主要使用汉语、朝语或者日语,UTF-8
会使文件的尺寸增加50%��因此应当谨慎使用UTF-8。UTF-8 几乎不能处理非罗马文字和非CJK 文字,如希腊语、阿
拉伯语、古斯拉夫语和希伯来语。
XML 实用大全
第 174 页
XML 处理器在没有被预先通知的情况下假定文本数据是UTF-8 格式。这意味着XML 处理器能够阅读ASCII 码文件,但是使用
它处理其他格式的文件像MacRoman 或者 Latin-1 会有困难。我们很快就能学会如何在短时间内解决这个问题。
7.4.2 通用字符系统
Unicode 因为没有包含足够多的语言和文字而受到批评,特别是亚洲东部的语言。它只定义了中国、日本、朝鲜和古越南使
 
中国航空网 www.aero.cn
航空翻译 www.aviation.cn
本文链接地址:XML实用大全(55)