mbs字符串(char*)与Unicode字符串(wchar_t*)的转换.md

2024-06-17 01:08

本文主要是介绍mbs字符串(char*)与Unicode字符串(wchar_t*)的转换.md,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、C语言库函数

(1)setlocale()

功能:配置地域化信息;在输出Unicode字符串时会用到,在使用wcstombs函数时也会用到。下面英文描述中的用粗体字标出的函数都会用到该函数
头文件:< locale.h>;
函数原型:

char *setlocale (int category, const char * locale);

函数参数:

  • category 表示对本地化的某项内容进行设置,可取如下值:

    • LC_ALL 包括下面的全部选项都要;
    • LC_COLLATE 配置字符串比较;
      The strcoll, _stricoll, wcscoll, _wcsicoll, strxfrm, _strncoll, _strnicoll, _wcsncoll, _wcsnicoll, and wcsxfrm functions.
    • C_CTYPE 配置字符类别及转换,例如全变大写 strtoupper();
      The character-handling functions (except isdigit, isxdigit, mbstowcs, and mbtowc, which are unaffected).
    • LC_MONETARY 配置金融货币;
      Monetary-formatting information returned by the localeconv function.
    • LC_NUMERIC 配置小数点后的位数;
      Decimal-point character for the formatted output routines (such as printf), for the data-conversion routines, and for the non-monetary formatting information returned by localeconv. In addition to the decimal-point character, LC_NUMERIC also sets the thousands separator and the grouping control string returned by localeconv.
    • LC_TIME 配置时间日期格式,与 strftime() 合用。
      The strftime and wcsftime functions.
  • locale 表示本地域代号:
    如果为NULL,则返回当前的locale名称(一般为C);如果非空,则根据category和locale进行设置,如果成功,则返回新的locale名称(地域名称),如果失败,则返回 NULL。

注意:可能刚开始对category参数有些不理解,category参数是指定全局变量locale会影响到的范围,也就是说如果我指定了LC_COLLATE参数,那么该函数的set只在字符串比较时会起作用

代码示例:

int main()
{wchar_t wstr[] = L"Hello 中国";//locale传 "" 空字符串用来返回当前环境的local名char* LocaleName = setlocale(LC_ALL, "");//locale传 "chs" 表示设置locale为简体中文setlocale(LC_ALL, "chs");//输出"Hello 中国",如果没有setlocale配置区域信息的话wprintf是无法正常输出中文字符的wprintf(wstr);//将区域信息设置回初始值if (0 == setlocale(LC_ALL, LocaleName)){printf("配置出错\r\n");return 0;}return 0;
}
(2)wcstombs()

功能:将宽字符编码字符串转换成多字节编码字符串
头文件: < stdlib.h>
函数原型:

//普通版本
size_t wcstombs(char *mbstr,const wchar_t *wcstr,size_t count
);
//安全版本
errno_t  wcstombs_s(size_t * _PtNumOfCharConverted, char * _Dst, size_t _DstSizeInBytes, const wchar_t * _Src, size_t _MaxCountInBytes
);
//带区域设置的安全版本
errno_t _wcstombs_s_l(size_t *pReturnValue,char *mbstr,size_t sizeInBytes,const wchar_t *wcstr,size_t count,_locale_t locale
);

函数参数
_PtNumOfCharConverted:指向转换后的字符串的长度加上结束符(单位字节);
_Dst:指向转换后的字符串首地址;
_DstSizeInBytes:目的地址最大字节空间(单位字节);
_Src:源宽字符串首地址;
_MaxCountInBytes:最多可存入多字节字符串缓冲最的字节数,用于裁剪转换后的字符串。
返回值:成功返回0, 失败则返回失败代码。

代码示例:
没有写,和mbstowcs的差不多,写在下面了。

(3)mbstowcs()

函数功能:将多字节编码字符串转换成宽字符编码字符串
头文件:< stdlib.h>
函数原型:

//普通版本
size_t mbstowcs(wchar_t *wcstr,const char *mbstr,size_t count
);
//安全版本
errno_t __cdecl mbstowcs_s(size_t * _PtNumOfCharConverted, wchar_t * _DstBuf, size_t _SizeInWords, const char * _SrcBuf, size_t _MaxCount 
);
//带区域参数的安全版本
errno_t _mbstowcs_s_l(size_t *pReturnValue,wchar_t *wcstr,size_t sizeInWords,const char *mbstr,size_t count,_locale_t locale
);

参数说明:
_PtNumOfCharConverted:指向转换后的字符串的长度加上结束符(单位wchar_t),;
_DstBuf:指向转换后的字符串首地址;
_SizeInWords:目的地址最大字空间大小(单位wchar_t);
_SrcBuf:源多字节字符串首地址;
_MaxCount:最多可存入宽字符串缓冲中的字符个数,用于裁剪转换后的宽字符串。

返回值:成功返回0, 失败则返回失败代码。

代码示例

  • 普通版本

    int main()
    {
    char str[] = "Hello 中国";
    //直接把宽度sizeof(str) * 2是有些内存资源浪费的,但也只能这样了,MultiByteToWideChar是可以直接计算缓冲区大小的
    wchar_t wstr[sizeof(str) * 2];
    //使用mbstowcs转换字符串
    mbstowcs(wstr,str,sizeof(str));
    //这里使用C++中的输出方式输出
    wcout.imbue(locale("chs"));
    wcout << wstr << endl;
    return 0;
    }
  • 安全版本

    int main()
    {
    size_t convertedChars = 0;
    char str[] = "Hello 中国";
    //直接把宽度sizeof(str) * 2是有些内存资源浪费的,但也只能这样了
    wchar_t wstr[sizeof(str) * 2];
    //设置区域信息为简体中文
    setlocale(LC_ALL, "chs");
    //使用mbstowcs转换字符串
    mbstowcs_s(&convertedChars, wstr, str, sizeof(str));//convertedChars是_Out参数,用于记录转换成功的字符
    //这里使用C++中的输出方式输出
    wcout.imbue(locale("chs"));
    wcout << wstr << endl;return 0;
    }
  • 带区域参数的安全版本

    int main()
    {
    size_t convertedChars = 0;
    char str[] = "Hello 中国";
    //直接把宽度sizeof(str) * 2是有些内存资源浪费的,但也只能这样了
    wchar_t wstr[sizeof(str) * 2];
    //使用_mbstowcs_s_l转换字符串
    _mbstowcs_s_l(&convertedChars, wstr, sizeof(str)*2, str, sizeof(str), _create_locale(LC_ALL,"chs"));//convertedChars是_Out参数,用于记录转换成功的字符
    //这里使用C++中的输出方式输出
    wcout.imbue(locale("chs"));
    wcout << wstr << endl;
    return 0;
    }

二、Windows函数

(1)WideCharToMultiByte()

函数功能:将宽字符串转换成多字节字符串
头文件:< windows.h>
函数原型:

int WINAPI WideCharToMultiByte(_In_ UINT CodePage,_In_ DWORD dwFlags,_In_NLS_string_(cchWideChar) LPCWCH lpWideCharStr,_In_ int cchWideChar,_Out_writes_bytes_to_opt_(cbMultiByte, return) LPSTR lpMultiByteStr,_In_ int cbMultiByte,_In_opt_ LPCCH lpDefaultChar,_Out_opt_ LPBOOL lpUsedDefaultChar
);

参数详解:

  • CodePage:指定执行转换的代码页字符集,可以为操作系统已安装或有效的任何代码页字符集,也可以指定其为下面的任意一值:
    CP_ACP:ANSI代码页;
    CP_MACCP:Macintosh代码页;
    CP_OEMCP:OEM代码页;
    CP_SYMBOL:符号代码页;
    CP_THREAD_ACP:当前线程ANSI代码页;
    CP_UTF7:使用UTF-7转换;
    CP_UTF8:使用UTF-8转换。
    使用最多的就是CP_ACP和CP_UTF8;
  • dwFlags:指定如何处理没有转换成功的字符,也可以不设此参数(设置为0),函数会运行的更快一些。对于UTF-8,dwflags必须为0或者WC_ERR_INVALID_CHARS,否则函数都将失败返回并设置错误码ERROR_INVALID_FLAGS,可以调用GetLastError获得;
  • lpWideCharStr:待转换为宽字符串;
  • cchWideChar:待转换的宽字符串的长度(字符个数),-1表示转换到字符串结尾;
  • lpMultiByteStr:转换后目的字符串缓冲区;
  • cbMultiByte:目的字符串缓冲区大小(单位字节)。如果设置为0,函数将返回所需缓冲区大小而忽略lpMultiByteStr;
  • lpDefaultChar:指向字符的指针,在指定编码里找不到相应字符时使用此字符作为默认字符替代。如果为NULL,则使用系统默认字符。使用dwFlags时不能使用此参数,否则报ERROR_INVLID_PARAMETER错误。
  • lpUsedDefaultChar:开关变量的指针,表明是否使用过默认字符。对于要求此参数为NULL的dwflags而使用此参数,函数将失败返回,并设置错误码ERROR_INVLID_PARAMETER。lpDefaultChar和lpUsedDefaultChar都设为NULL,函数会更快一些。

函数返回值:如果函数运行成功,并且cbMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cbMultiByte为零,返回值是接存放目的字符串缓冲区所必需的字节数。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。

代码示例:将wstr中的字符转换为多字符集字符存储到缓冲字符串str中

    WCHAR* wstr = L"Hollo 中国";char* str = NULL;//计算所需缓冲区大小,参数四-1表示转换到字符串尾,参数六NULL表示计算并返回缓冲区大小,最后两个参数传NULL即可int lpMultiByteStr = WideCharToMultiByte(CP_ACP, NULL, wstr, -1,str,NULL,NULL,NULL);//动态申请缓冲区内存str = new char[lpMultiByteStr];//将转换后的字符串写进缓冲区,最后两个参数传NULL即可WideCharToMultiByte(CP_ACP, NULL, wstr, -1, str, lpMultiByteStr, NULL, NULL);//输出测试setlocale(LC_ALL, str);cout << str << endl;//释放缓冲区内存空间delete[] str;str = NULL;
(2)MultiByteToWideChar()

函数功能:多字节字符串到款字节字符串的转换;
头文件:< windows.h>
函数原型:

int WINAPI MultiByteToWideChar(_In_ UINT CodePage,_In_ DWORD dwFlags,_In_NLS_string_(cbMultiByte) LPCCH lpMultiByteStr,_In_ int cbMultiByte,_Out_writes_to_opt_(cchWideChar, return) LPWSTR lpWideCharStr,_In_ int cchWideChar
);

参数详解:
- CodePage:同上;
- dwFlags:指定是否转换成预制字符或合成的宽字符,是否使用象形文字替代控制字符,以及如何处理无效字符。对于UTF-8,dwflags必须为0或者WC_ERR_INVALID_CHARS,否则函数都将失败返回并设置错误码ERROR_INVALID_FLAGS,可以调用GetLastError获得;
- lpMultiByteStr:多字节字符串;
- cbMultiByte:待转换的多字节字符串长度,-1表示转换到字符串结尾;
- lpWideCharStr:存放转换后的宽字符串缓冲;
- cchWideChar:宽字符串缓冲的大小(单位字符数)。

返回值:如果函数运行成功,并且cchWideChar不为零,返回值是由 lpWideCharStr指向的缓冲区中写入的字符数;如果函数运行成功,并且cchWideChar为零,返回值是接存放目的字符串缓冲区所必需的字符数。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。

代码示例:将str中的字符转换为多字符集字符存储到缓冲字符串wstr中

    char str[] = "Hollo 中国";WCHAR* wstr = NULL;//计算所需缓冲区大小,参数四-1表示转换到字符串尾,参数六NULL表示计算并返回缓冲区大小int lpMultiByteStr = MultiByteToWideChar(CP_ACP,NULL,str,-1,wstr,NULL);//动态申请缓冲区内存wstr = new wchar_t[lpMultiByteStr];//将转换后的字符串写进缓冲区MultiByteToWideChar(CP_ACP, NULL, str, -1, wstr, lpMultiByteStr);//输出测试_wsetlocale(LC_ALL, L"chs"); //简体中文的locale名称为:"chs"简体中文的locale名称为:"chs"wprintf(wstr);//释放缓冲区内存空间delete[] wstr;wstr = NULL;

参考资料
Dablelv的博客
http://blog.csdn.net/k346k346/article/details/50082705
白永辉的专栏
http://blog.csdn.net/xiaobai1593/article/details/7387889
感谢博主的好文!

这篇关于mbs字符串(char*)与Unicode字符串(wchar_t*)的转换.md的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1068063

相关文章

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。 无论您是在为您的企业寻找更高效的 PDF 解决方案,还是尝试组织和编辑主文档,PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时,请考虑这些因素。 1. 确定您的 PDF 文档软件需求。 不同的 PDF 文档软件程序可以具有不同的功能,因此在决定哪个是最适合您的 PDF 软件之前,请花点时间评估您的

C# double[] 和Matlab数组MWArray[]转换

C# double[] 转换成MWArray[], 直接赋值就行             MWNumericArray[] ma = new MWNumericArray[4];             double[] dT = new double[] { 0 };             double[] dT1 = new double[] { 0,2 };

C和指针:字符串

字符串、字符和字节 字符串基础 字符串就是一串零个或多个字符,并且以一个位模式为全0的NUL字节结尾。 字符串长度就是字符串中字符数。 size_t strlen( char const *string ); string为指针常量(const修饰string),指向的string是常量不能修改。size_t是无符号数,定义在stddef.h。 #include <stddef.h>

PHP字符串全排列

方法一: $str = 'abc';$a =str_split($str);perm($a, 0, count($a)-1);function perm(&$ar, $k, $m) {if($k == $m){ echo join('',$ar), PHP_EOL;}else {for($i=$k; $i<=$m; $i++) {swap($ar[$k], $ar[$i]);perm($ar

PHP7扩展开发之字符串处理

前言 这次,我们来看看字符串在PHP扩展里面如何处理。 示例代码如下: <?phpfunction str_concat($prefix, $string) {$len = strlen($prefix);$substr = substr($string, 0, $len);if ($substr != $prefix) {return $prefix." ".$string;} else

十一、C语言:字符串函数

目录 一、strlen 二、strcpy 三、strcat  四、strcmp 五、strstr 六、strtok 七、strerror 一、strlen 注意:strlen()函数的返回值是size_t,两个size_t相减仍为无符号数 int main(){char arr[10] = "abc";char brr[10] = "abc123";if (strl

数据流与Bitmap之间相互转换

把获得的数据流转换成一副图片(Bitmap) 其原理就是把获得倒的数据流序列化到内存中,然后经过加工,在把数据从内存中反序列化出来就行了。 难点就是在如何实现加工。因为Bitmap有一个专有的格式,我们常称这个格式为数据头。加工的过程就是要把这个数据头与我们之前获得的数据流合并起来。(也就是要把这个头加入到我们之前获得的数据流的前面)      那么这个头是

NC 把数字翻译成字符串

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 有一种将字母编码成数字的方式:‘a’->1, ‘b->2’, … , ‘z->26’。 现在给一串数字,返回有多少种可能的译码结果 import java.u

C语言进阶【1】--字符函数和字符串函数【1】

本章概述 字符分类函数字符转换函数strlen的使用和模拟实现strcpy的使用和模拟实现strcat的使用和模拟实现strcmp的使用和模拟实现彩蛋时刻!!! 字符分类函数 字符: 这个概念,我们在以前的文章中讲过了。我们键盘输入的信息都是字符。字符大体可以分为两类——单个字符,字符串。而单个字符又可以进行分类——字母字符,数字字符,特殊字符和不可见字符。进行思维图展示: 在日