本文主要是介绍Unicode也是一种字符编码方法,容纳65536个字符,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Unicode也是一种字符编码方法,容纳65536个字符
Unicode也是一种字符编码方法,它占用两个字节(0000H—FFFFH),容纳65536个字符,这完全可以容纳全世界所有语言文字的编码。
这个问题没有准确的答案,只能是在某个范围内的统计数字。国家有关机构作了统计,发布了有关文件。分为常用字表和次常用字表。大约是2500到7000之间。 在社会生活中,不同的行业,部门,不同职业的人所需要的用字量是不同的,在学校教育的不同阶段,也需要规定不同量的识字标准。因此,汉字的字量标准就不能只有一个,而应该有不同的层次和类别。就用字来讲,首先应该区分常用字和通用字。 按现在一般的理解, 常用字就是经常使用的,阅读报刊书籍必须掌握的字,但“经常使用”也只是个模糊的概念,因此在不同的历史时期,根据不同的需要,常用字的概念的内涵也时有变化,即使是同样的内涵,其所收字的数量也会不同。 通用字的范围比常用字大,它是指一定时期出版印刷,辞书编撰和汉字信息处理所需要使用的汉字。现代汉语通用字则是指现代所需要使用的汉字,它不包括很生僻的,专门用于汉语的用字,也不包括专业用字。根据对文字资料的统计,从商朝到现代,一般使用的汉字数量没有显著的变化,可能一直在五六千左右。近年来指定的具有通用字表性质的汉字标准,基本上维持了这一数目。如《印刷通用汉字字形表》收字6196个,国家标准《信息交换用汉字编码字符表》收字6763个。根据近年来实际使用的情况,国家语委在1988年研制的《现代汉语通用字表》,收字7000个。
python--ASCII和UNICODE字符串的区别
标签: android chinese input linux chinese input转自: http://wait_miracle.iteye.com/blog/2003206import os print "Input your Chinese name:" s=raw_input("Press enter to be continued "); print "Your name is : " +s; l=len(s) print "Length of your Chinese name in asc codes is:"+str(l); a=unicode(s,"GBK") l=len(a) print "I'm sorry we should use unicode char!Characters number of your Chinese \ name in unicode is:"+str(l);
运行结果:
Input your Chinese name: Press enter to be continued 王二毛 Your name is : 王二毛 Length of your Chinese name in asc codes is:6 I'm sorry we should use unicode char!Characters number of your Chinese name in unicode is:3
js URL编码方法的比较
标签: android 字符串编码 c#字符编码格式 ios 字符串编码转自: http://blog.csdn.net/phptripper/article/details/4293795javascrīpt中存在几种对URL字符串进行编码的方法 :escape(),encodeURI(),以及encodeURIComponent()。这几种编码所起的作用各不相同。
escape() 方法:
采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。
不会被此方法编码的字符:@ * / +
encodeURI() 方法:
把URI字符串采用UTF-8编码格式转化成escape格式的字符串。
不会被此方法编码的字符:! @ # $& * ( ) = : / ; ? + '
encodeURIComponent() 方法:
把URI字符串采用UTF-8编码格式转化成escape格式的字符串。与encodeURI()相比,这个方法将对更多的字符进行编码,比如 / 等字符。所以如果字符串里面包含了URI的几个部分的话,不能用这个方法来进行编码,否则 / 字符被编码之后URL将显示错误。
不会被此方法编码的字符:! * ( ) '
因此,对于中文字符串来说,如果不希望把字符串编码格式转化成UTF-8格式的(比如原页面和目标页面的charset是一致的时候),只需要使用escape。如果你的页面是GB2312或者其他的编码,而接受参数的页面是UTF-8编码的,就要采用encodeURI或者encodeURIComponent。
另外,encodeURI/encodeURIComponent是在javascrīpt1.5之后引进的,escape则在javascrīpt1.0版本就有。
这篇关于Unicode也是一种字符编码方法,容纳65536个字符的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!