• 热门标签

当前位置: 主页 > 航空资料 > 计算机 >

时间:2010-08-09 13:24来源:蓝天飞行翻译 作者:admin
曝光台 注意防骗 网曝天猫店富美金盛家居专营店坑蒙拐骗欺诈消费者

XML 实用大全
第 157 页
Tidy 通过几种不同的方式整理HTML 文件,它们并非都与XML 结构完整性有关。事实上在默认模式下,Tidy 倾向于删除不必
要的结束标记(对HTML 而言,不是对XML),像</LI>。并且对破坏结构完整性的地方作一些修改。但是可以使用-asxml
开关指定需要结构完整的XML 输出。例如,把index.html 文件转换为结构完整的XML,需要从DOS 窗口或者外壳提示符下
输入:
C:\>tidy -m -asxml index.html
-m 标志告诉Tidy 就地转换文件。-asxml 标志告诉Tidy 把输出的文档格式转化为XML 文档。
XML 实用大全
第 158 页
6.5 本章小结
在本章学习了如何编写结构完整的XML。主要包括以下内容:
• XML 文档是满足一定结构完整性标准的一连串字符
• XML 文档的文本分为字符数据和置标
• 注释可为代码加上说明文字,可能是为了自己看的注释,也可能是通过注释将还没有写好的部分注释掉
• 使用实体引用可以在文档中包含<、>、&、"和
• CDATA 段对于嵌有很多<、>和&字符的文档是很有用的
• 在XML 文档中的标记以<开始,并以>结束,而且不能出现在注释或者CDATA 段中
• 起始标记和空标记可以包含描述元素的属性
• HTML 文档稍加处理会变得结构完整
在下一章将要讨论如何使用非英语语言编写XML,尤其是用与英语差别很大的语言。如阿拉伯语、汉语和希腊语。
XML 实用大全
第 159 页
第7 章 外文和非罗马文本
Web 是国际性的,然而在其中使用的大多数是英文,XML 正在开始改变这种状况。XML 全面支持双字节Unicode 字符集及其
更简洁的描述形式。这对Web 作者来说是个好消息,因为Unicode 支持世界上每种现代文字通常使用的几乎所有的字符。
本章将学习在计算机应用程序中如何描述国际性文本,XML 如何理解文本以及如何利用非英文软件。
本章的主要内容包括:
• 了解非罗马文字在网页上的效果
• 使用文字、字符集、字体和字形
• 传统的字符集
• 使用Unicode 字符集
• 使用Unicode 编写XML 文件
7.1 Web 上的非罗马文字
虽然Web 是国际化的,但它的大部分文本是英文。由于网络的不断扩展,还能领略到法语、西班牙语、汉语、阿拉伯语、希
伯来语、俄语、北印度语和其他语言的网页。很多时候这些网页没有理想的那么多。图7-1 是1998 年10 月一份美国信息部
宣传杂志的封面页面:Issues in Democracy(http//www.usia.gov/journals/itdhr/1098/ ijdr/ijdr1098.htm),是用英
文编码显示的俄文译本。左上方红色的古斯拉夫文本是一张位图图片文件,因此很清晰(如果懂俄语的话),还有几个清晰
的英文单词,如“Adobe Acrobat”。其余的大部分是加重音的罗马元音,不是想象的古斯拉夫字母。
当使用复杂的非西方文字时,如中国或日本文字,网页的质量会更差。图7-2 是使用英文浏览器显示JavaBeans(IDG Books,
1997,http://www.ohmsha.co.jp /data/books/contents/4-274-06271-6.htm)的日文版主页。同样的结果,位图图片显示
了正确的日文(还有英文)文本,页面上其余的文本除了几个可辨认的英文单词像JavaBeans 之外,就像是一个随机的字符
组合。而希望看到的日文字符完全看不到。
如果使用正确的编码和应用软件,并安装正确的字体,这些页面就可以正确显示。图7-3 是使用古斯拉夫的Windows 1251
编码显示的Issues in Democracy。可以看到图片下面的文本是可读的(如果懂俄语的话)。
可以从Netscape Navigator 或Internet Explorer 的View/Encoding(视图/编码)菜单中为网页选取编码方式。在理想情
况下,网络服务器会告诉网络浏览器使用何种编码,同时Web 浏览器会接受。如果网络服务器能向网络浏览器传送显示页面
的字体就更好。事实上,经常需要人工选择编码方式。当原稿有几种编码时,不得不尝试多个编码直至找到特别合适的一个。
例如,一张古斯拉夫页面能用Windows 1251、ISO 8859-5 或者KOI6-R 编码。选择错误的编码可能会显示古斯拉夫字母,但
单词将是不知所云、毫无意义的。
XML 实用大全
第 160 页
图7-1 用一种罗马文字观看的1998 年10 月版关于探讨民主政治的俄文译本
图7-2 用英文浏览器看到的JavaBeans 的日文翻译页面
XML 实用大全
第 161 页
图7-3 使用古斯拉夫文字看到的Issues of Democracy
即使能够指定编码,也不能确保有显示它的字体。图7-4 是使用日文编码的JavaBeans 日文主页,但是在计算机中却没有任
何一种日文字体。文本中的多数字符显示成方框,表明这是一个得不到的字符轮廓。幸运的是,Netscape Navigator 能够
辨认出页面上的双字节日文字符和两个单字节的西文字符。
图7-4 在没有必需的日文字体的情况下所显示的JavaBeans 日文译本
如果有一种日本地方语言操作系统版本,它包含必要的字体或者别的软件,如Apple 的Japanese Language Kit 或南极星
的 NJWin(http://www.njstar.com/),这样就可以看到文本,大致如图7-5 所示。
XML 实用大全
第 162 页
图7-5 在安装有所要的日文字体的浏览器上显示的JavaBeans 译文
当然,所使用的字体质量越高,文本的效果看起来就越好。中文和日文的字体非常庞大(中文有大约80, 000 多个汉字),
而且单个文字间的差别很小。日文出版商比西方出版商对纸张和打印技术的要求更高,以保持必要的细节打印日文字符。遗
憾的是一个72-dpi 的计算机显示器不能很好地显示中文和日文字符,除非使用很大的字体。
由于每个页面只能有一种编码,因而要编写集成了多种文字的网页,如对中文的法文注释,是非常困难的。由于这一原因,
网络界需要一种单一的、通用的字符集,使所有计算机和网络浏览器能显示网页中的所有字符。目前仍然没有这样的字符集,
XML 和Unicode 是最好的。
XML 文件是用Unicode 编写的,这种双字节字符能表示世界各国语言中大部分的字符。如果网页是用Unicode 编写的XML 网
 
中国航空网 www.aero.cn
航空翻译 www.aviation.cn
本文链接地址:XML实用大全(50)