Unicode也是一种字符编码方法,容纳65536个字符

2024-04-15 05:08

本文主要是介绍Unicode也是一种字符编码方法,容纳65536个字符,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Unicode也是一种字符编码方法,容纳65536个字符

标签:  css常用字体    css 常用字体    myeclipse常用字体  
转自:  http://blog.csdn.net/autumn20080101/article/details/8515256


Unicode也是一种字符编码方法,它占用两个字节(0000H—FFFFH,容纳65536个字符,这完全可以容纳全世界所有语言文字的编码。

中国人常用汉字单字个数有多少

     这个问题没有准确的答案,只能是在某个范围内的统计数字。国家有关机构作了统计,发布了有关文件。分为常用字表和次常用字表。大约是2500到7000之间。 
在社会生活中,不同的行业,部门,不同职业的人所需要的用字量是不同的,在学校教育的不同阶段,也需要规定不同量的识字标准。因此,汉字的字量标准就不能只有一个,而应该有不同的层次和类别。就用字来讲,首先应该区分常用字和通用字。 
按现在一般的理解, 常用字就是经常使用的,阅读报刊书籍必须掌握的字,但“经常使用”也只是个模糊的概念,因此在不同的历史时期,根据不同的需要,常用字的概念的内涵也时有变化,即使是同样的内涵,其所收字的数量也会不同。 
通用字的范围比常用字大,它是指一定时期出版印刷,辞书编撰和汉字信息处理所需要使用的汉字。现代汉语通用字则是指现代所需要使用的汉字,它不包括很生僻的,专门用于汉语的用字,也不包括专业用字。根据对文字资料的统计,从商朝到现代,一般使用的汉字数量没有显著的变化,可能一直在五六千左右。近年来指定的具有通用字表性质的汉字标准,基本上维持了这一数目。如《印刷通用汉字字形表》收字6196个,国家标准《信息交换用汉字编码字符表》收字6763个。根据近年来实际使用的情况,国家语委在1988年研制的《现代汉语通用字表》,收字7000个。

python--ASCII和UNICODE字符串的区别

标签: android chinese input   linux chinese input  
转自: http://wait_miracle.iteye.com/blog/2003206

import os print "Input your Chinese name:" s=raw_input("Press enter to be continued  "); print "Your name is  : " +s; l=len(s) print "Length of your Chinese name in asc codes is:"+str(l); a=unicode(s,"GBK") l=len(a) print "I'm sorry we should use unicode char!Characters number of your Chinese \ name in unicode is:"+str(l);

 

 

运行结果:

Input your Chinese name: Press enter to be continued  王二毛 Your name is  : 王二毛 Length of your Chinese name in asc codes is:6 I'm sorry we should use unicode char!Characters number of your Chinese name in unicode is:3





js URL编码方法的比较

标签: android 字符串编码   c#字符编码格式   ios 字符串编码  
转自: http://blog.csdn.net/phptripper/article/details/4293795

javascrīpt中存在几种对URL字符串进行编码的方法 :escape(),encodeURI(),以及encodeURIComponent()。这几种编码所起的作用各不相同。 

escape() 方法:

采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。

不会被此方法编码的字符:@ * / +

encodeURI() 方法:

把URI字符串采用UTF-8编码格式转化成escape格式的字符串。

不会被此方法编码的字符:! @ # $& * ( ) = : / ; ? + '

encodeURIComponent() 方法:

把URI字符串采用UTF-8编码格式转化成escape格式的字符串。与encodeURI()相比,这个方法将对更多的字符进行编码,比如 / 等字符。所以如果字符串里面包含了URI的几个部分的话,不能用这个方法来进行编码,否则 / 字符被编码之后URL将显示错误。

不会被此方法编码的字符:! * ( ) '

因此,对于中文字符串来说,如果不希望把字符串编码格式转化成UTF-8格式的(比如原页面和目标页面的charset是一致的时候),只需要使用escape。如果你的页面是GB2312或者其他的编码,而接受参数的页面是UTF-8编码的,就要采用encodeURI或者encodeURIComponent。

另外,encodeURI/encodeURIComponent是在javascrīpt1.5之后引进的,escape则在javascrīpt1.0版本就有。

这篇关于Unicode也是一种字符编码方法,容纳65536个字符的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/904899

相关文章

剑指offer(C++)--第一个只出现一次的字符

题目 在一个字符串(0<=字符串长度<=10000,全部由字母组成)中找到第一个只出现一次的字符,并返回它的位置, 如果没有则返回 -1(需要区分大小写). class Solution {public:int FirstNotRepeatingChar(string str) {map<char, int> mp;for(int i = 0; i < str.size(); ++i)m

linux匹配Nginx日志,某个字符开头和结尾的字符串

匹配 os=1 开头, &ip结尾的字符串 cat 2018-06-07.log | egrep -o ‘os=1.*.&ip’ 存入日志。然后使用submit 前面和后面的值去掉,剩下就是需要的字符串。 cat 2018-06-07.log | egrep -o ‘os=1.*.&ip’ >log.log

Go 三色标记法:一种高效的垃圾回收策略

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」👈,持续学习,不断总结,共同进步,为了踏实,做好当下事儿~ 专栏导航 Python系列: Python面试题合集,剑指大厂Git系列: Git操作技巧GO系列: 记录博主学习GO语言的笔

C语言中的字符输入/输出和验证输入

在C语言中,字符输入/输出功能允许程序与用户进行交互,读取用户的输入信息并展示输出结果。同时,验证输入的作用在于确保用户输入的数据符合预期,以提高程序的稳定性和可靠性,防止无效输入引发的错误或异常行为,从而提供更好的用户体验。 基础概念 输入(Input):指的是向程序填充数据的过程,通常来源于用户输入、文件读取或其他外部数据源。 输出(Output):指的是将数据显示在屏幕上、打印机上或

【论文复现|智能算法改进】一种基于多策略改进的鲸鱼算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】 2.改进点 混沌反向学习策略 将混沌映射和反向学习策略结合,形成混沌反向学习方法,通过该方 法生成鲸鱼算法的初始种群。混沌序列采用 Tent 混沌映射: x i + 1 = { δ x i 0 < x i < 0.5

Python2之unicode转字符串

str.encode('unicode-escape').decode('string_escape')

「Debug R」有一种报错叫做Windows专享

今天在R里面用Rsamtools 读取BAM文件时遇到了下面的报错 [W::bam_hdr_read] bgzf_check_EOF: No error[E::bgzf_read] Read block operation failed with error -1 after 55 of 167 bytes 这个错误在网上搜了很久,发现很多人都遇到了,但是在这些人的提问后面都没有给出确切的

c#:输入5个字符,将其倒序打印出来

using System;using System.Collections.Generic;using System.Linq;using System.Text;//运用所学知识,输入5个字符,将其倒序打印出来namespace ans2{class Program{static void Main(string[] args){string s = Console.Rea

优化C++ utf8,gbk,unicode编码间的转换函数

好久没写博客了,不是太忙,是太懒了。。。 最近都在重构公司项目上的代码,然后就发现有部分函数的运行方式可以优化。这些函数的运行的运行方式都是先new出一堆内存,使用,最后delete掉。我就想,可不可以通过静态局部变量来重复使用已经new了的动态内存,以达到优化代码的运行的目的?然后我就用visual studio 2017进行了测试,下面是我的测试代码: #include <random>