大端和小端传输字节序

本文主要是介绍大端和小端传输字节序，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大端和小端传输字节序

大端和小端
- 一、最高有效位、最低有效位
- - 1.MSB(Most significant Bit)最高有效位
  - 2.LSB(Least Significant Bit)最低有效位
- 二、内存地址
- 三、大端和小端
- 四、网络字节序和主机字节序
- 五、C#位操作符
- 六、C#中关于大端和小端的转换
- 七、关于负数
- 八、关于汉字编码以及与字节序的关系
- - 网络通讯
  - 文件

大端和小端

在计算机中是以字节为单位，每一个地址对应一个字节，一个字节8bit。在C中，除了8bit的char以外，还有16bit的short，32位的int，64位long，当然具体要由编译器决定，可以通过sizeof来获取不同类型在内存中占用的字节数。在计算机系统中，当物理单位的长度大于1个字节时，就要区分字节顺序。常见的字节顺序有两种：Big Endian(High-byte first) 和 Litter Endian(Low-byte first)，当然还有其他字节顺序，但不常见，例如Middle Endian。

一、最高有效位、最低有效位

要理解Big Endian和Little Endian，首先要搞清楚MSB和LSB。

1.MSB(Most significant Bit)最高有效位

在一个n位二进制数字中n-1位，也就是最左边的位。

2.LSB(Least Significant Bit)最低有效位

指最右边的位。
例如：一个int类型的整形123456789
二进制表达方式： 0000 0111 0101 1011 1100 1101 0001 0101(从右向左，每4bit对齐，最左边(高位)不够用0补齐)
十六进制表达方式：0 7 5 B C D 1 5
按照上述关于MSB和LSB的意思，在二进制表达方式中，bit从0开始，从右向左，bit 0位最低有效位，而bit 23为最高有效位。而我们一般称左边的0x07为高位字节，0x15为低位字节。
再通俗一点解释就是：8421的，8这端为高位，1这端为低位，相应的字节则分别称为高位字节和低位字节。

二、内存地址

在内存中，多字节对象都是被存储为连续的字节序列。例如在C语言中，一个类型为int的变量n，如果其存储的首个字节的地址为0x1000，那么剩余3个字节地址将存储在0x1001~0x1003。总之，不管具体字节顺序是以什么方式排列，内存地址的分配一般是从小到大的增长。我们常把0x1000称为低地址端，把0x1003称为高地址端。

三、大端和小端

搞清楚MSB、LSB、高位字节、低位字节之后，再理解大端和小端，就相当容易了，先看看概念：
小端Little Endian：低字节存放在低地址，低位字节排放在内存的低地址端，高位字节排放在内存的高地址端。
大端Big Endian：高字节存放在低地址，即高位字节排放在内存的低地址端，低位字节排放在内存的高地址端。
以二节中的例子int类型整数123456789位例：
小端在内存中排列： 0x15 0xCD 0x5B 0x07(低位在前)
大端在内存中排列： 0x07 0x5B 0xCD 0x15(高位在前)
从例子中可以看出小端比较符合人的思维，而大端则看上去非常直观。
注：

例子中是假设编译器支持int为32位的前提下，如果是16位，那大端的排列则为0xCD 0x15 0x07 0x5B
大小端一般是由CPU架构决定，常见的Intel、AMD的CPU使用的是小端字节，而PowerPC使用的是大端字节序，有些ARM处理器还可以选择大端还是小端模式，具体自行查阅。
C#中，字节序跟编译平台所在的CPU相关，例如在Intel x86 CPU架构的windows平台中，C#采用的小端序。而Java由于JVM屏蔽不了不同CPU架构导致额字节序差异，所以默认采用大端字节。所以，大小端模式是由CPU决定，而编译器又可能会改变这种模式。

在这里插入图片描述

四、网络字节序和主机字节序

网络字节序(Network Order)：TCP/IP各层协议将字节序定义为Big Endian，因此TCP/IP协议中的字节序同称之为网络字节序。
主机字节序(Host Order)：整数在内存中保存的顺序，它遵循Little Endian规则(不一定，要看主机的CPU架构)。所以当两台主机之间要通过TCP/IP协议进行通信的时候就需要调用相应的函数进行主机序列(Little Endian)和网络序(Big Endian)的转换。
如果是做跨平台开发时，双方需要协商好字节序，然后根据程序运行的环境，确定是否需要字节序转换。
例如约定的通讯字节序位是Big Endian，默认的window采用的Little Endian，那收到数据后就需要做转换操作。

五、C#位操作符

这里简单记录一下C#位操作符，方便以后自己查阅，也方便理解后面的讲解。

按位与&
1&0为0；0&0为0；1&1为1
按位与|
1|0为1；0|0为0；1|1为1
按位取反~
~1为0； ~0为1；
按位异或^
1^1为0； 0^0为0； 1^0为1；
左移<<
位左移运算，将整个数向左移若干位，左移后空出的部分0补齐
右移>>
位右移运算，将整个数向右移若干位，右移后空出的部分用0补齐

六、C#中关于大端和小端的转换

重复轮子

using System;namespace Framework.NetPackage.Common
{/// <summary>/// 字节序转换辅助类/// </summary>public static class Endian{public static short SwapInt16(this short n){return (short)(((n & 0xff) << 8) | ((n >> 8) & 0xff));}public static ushort SwapUInt16(this ushort n){return (ushort)(((n & 0xff) << 8) | ((n >> 8) & 0xff));}public static int SwapInt32(this int n){return (int)(((SwapInt16((short)n) & 0xffff) << 0x10) |(SwapInt16((short)(n >> 0x10)) & 0xffff));}public static uint SwapUInt32(this uint n){return (uint)(((SwapUInt16((ushort)n) & 0xffff) << 0x10) |(SwapUInt16((ushort)(n >> 0x10)) & 0xffff));}public static long SwapInt64(this long n){return (long)(((SwapInt32((int)n) & 0xffffffffL) << 0x20) |(SwapInt32((int)(n >> 0x20)) & 0xffffffffL));}public static ulong SwapUInt64(this ulong n){return (ulong)(((SwapUInt32((uint)n) & 0xffffffffL) << 0x20) |(SwapUInt32((uint)(n >> 0x20)) & 0xffffffffL));}}
}

BCL库支持的函数
System.Net.IPaddress.HostToNetworkOrder、System.Net.IPAddress.NetworkToHostOrder，这两个函数的内容实现和上面重复轮子原理一样。

七、关于负数

在计算机中，负数以及其绝对值的补码形式表示，不明白可以查阅九中贴出的相关资源。关于负数的字节序跟一般整数的字节序处理没有任何区别。

八、关于汉字编码以及与字节序的关系

对于gb2312、gbk、gb1&8030、bigs，其编码某个汉字产生的字节顺序，由某编码方案本身决定，不受CPU字节序的影响。其实这几种编码的字节序和大端模式的顺序是一致的。
UTF-8
UTF-8和gb系列编码一样，其编码某个汉字产生的字节顺序，由其编码方案决定，不受CPU字节序的影响。无论一个汉字有多少个字节，它的字节序与编码顺序保持一致。
Unicode