HTML汉字编码标准介绍

这篇文章主要介绍了HTML汉字编码标准介绍,需要的朋友可以参考下

HTML中需要指定网页所使用的编码,一般指定的方式为:

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

而在新版本HTML5中,也可以使用更简单的方式:

<meta charset="UTF-8">

因为世界上所用的语言文字很多,为了满足跨语言、跨平台进行文本转换、处理的要求,国际组织研制了Unicode编码,于1994年正式公布,并不断升级,提供了1,114,112个码点,定义了包括古文字符号在内的人类所有可读字符的字符集。但Unicode编码为了表示那么多字符,通常使用32位(即4个字节)来表示一个字符,需要占用比较大的存储空间,对常用的字符(如ASCII)也需要较长的编码,内存使用效率比较低。

为此,定义了一种使用8位编码单元的变宽的编码格式UTF-8。UTF-8编码中,一些常用的字符可以使用较少的字节来表示,而较少使用的字符则使用较多的字节,提高了编码占用空间的效率。如ASCII码仍使用一个字节来表示,这是通过识别编码中一些高位的来实现的,它搭建了ASCII编码和Unicode的桥梁。具体编码方式为:
·0000~007F:0xxxxxxx,存储为一个字节,有7位可表示不同的字符,一般对应ASCII字符
·0080~07FF:110xxxxx,10xxxxxx,存储为两个字节,有11位可表示不同的字符
·0800~FFFF:1110xxxx,10xxxxxx,10xxxxxx,存储为3个字节,有16位用来表示不同的字符
·10000~1FFFFF:11110xxx,10xxxxxx,10xxxxxx,10xxxxxx,存储为4个字节,有21位表示不同的字符
可以看到规律:如果最高位不是0,那么数字中在0前面的数字表示一个序列包括的码元数。一个序列中,第一个码元之后的所有码元都有10前缀。Unicode编码还有UTF-16、UTF-32等其他的编码格式,但UTF-8更采用,同样也可以表示所有的编码集。

过去在计算机中表示汉字最常用的是GB2312编码,1980年发布,全称为《信息交换用汉字编码字符集--基本集》,它使用两个字节来表示一个汉字,共收入6763个汉字和682个非汉字图形字符,兼容于ASCII字符集。但这种编码中包含的汉字比较少,不能表示港台使用的繁体字,一些非常用字及古书中的字也无法表示,实用中会感到很多不便。后来,在GB2312基础上进行了扩展,也就是GBK编码标准,可以表示繁体字及一些异体字,使用范围得到扩展。

为了适合更广范围的应用,又发布了GB18030编码标准,GB18030-2000收录了27533个汉字,GB18030-2005则收录了70244个汉字,并包含了藏、蒙古、傣、彝、朝鲜、维吾尔文等多种少数民族文字。GB18030的总编码空间超过150万个码位,编码采用单字节、双字节和四字节对字符编码,单字节部分采用GB/T11383的编码结构与规则,使用0x00至0x7F码位,对应于ASCII码的相应码位;双字节部分,首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE;四字节部分采用GB/T11383未采用的0x30到0x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0x81308130到0xFE39FE39。GB18030编码还在不断扩充中。

为了更多地表示汉字及一些特殊符号,也为了未来更好地兼容性,新制作的网页最好使用GB18030标准,也就是使用下面两种方式之一指定编码:

<meta http-equiv="Content-Type" content="text/html;charset=gb18030">
<meta charset="gb18030">

当然,为了显示外国文字方便,也可以使用国际通用的UTF-8编码。

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

在layui中我们可能会有需要在执行完某一操作后使操作框变得不可选或者显示其他内容来进一步操作。例如: 这时我们就需要利用到layui中的一些语法: script type="text/html" id="对应操作栏的id"{{# if(条件){ }} a class="layui-btn layui-btn-xs layui-btn-warm" lay-
调整layui的弹出框msg的字体大小以及其他样式: //文本里面可以加html标签let sure = layer.msg('span style="font-size:20px"确定喜欢她吗?/span', { time: 0 //0表示不自动关闭 ,time自动关闭所需毫秒 ,单位是毫秒(1秒=1000毫秒) , btn: ['span style="font-size:20px"确定/s
使用JavaScript实现随机颜色生成器 目录 项目基本结构 1.颜色生成器的基本结构 2.使用 HTML 添加标题 3.创建用于颜色查看的显示器 4.创建一个框以查看颜色代码 5.创建生成器和复制按钮 6.使用 JavaScript 激活随机颜色生成器 完整源码下载 在线演示地
javascript实现登录框拖拽 本文实例为大家分享了javascript实现登录框拖拽的具体代码,供大家参考,具体内容如下 效果: 代码: !DOCTYPE html html head lang=en     meta charset=UTF-8     title/title     style         .login-header {             ...
JavaScript制作简单网页计算器 本文实例为大家分享了JavaScript制作简单网页计算器的具体代码,供大家参考,具体内容如下 一.题目 利用JavaScript中的函数,完成数字加.减.乘.除的运算,实现一个简单的计算器. 二.代码 !doctype html html head meta charset=utf-8 ti