数据包头分析---网络字节序与主机字节序

本文主要是介绍数据包头分析---网络字节序与主机字节序，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

udp头部数据结构

struct udphdr {
__be16 source; //16位源端口号
__be16 dest; //16位目的端口号
__be16 len; //指udp首部长度和udp数据的长度总和长度

__sum16 check; //udp校验和，校验的是udp首部和upd数据的总的校验和

};

，由此知，16bit*4=64bit=8字节，udp首部长度8字节。

如果tcp和udp同时提供某种知名服务，两个协议通常选择相同的端口号，这纯粹是为了使用的方便，而不是协议本身规定的

tcp头部数据结构

struct tcphdr {
__be16 source; //16位源端口号
__be16 dest; //16位目的端口号

                      //每个tcp段都包源和目的端口号，用于寻找发送端和接受端的应用进程。这两个端口号加上ip报头中的源ip和目的ip，来确定一个唯一的TCP连接。
__be32 seq;         //此次发送的数据在整个报文段中的起始字节数。此序号用来标识从tcp发送端向tcp接受端发送的数据字节流，seq表示在这个报文段中的第一个数据字节。如果将字节流看做在两个应用程序间的单向流动，则tcp用序号对每个字节进行计数。32 bit的无符号数。为了安全起见，它的初始值是一个随机生成的数，它到达2的32次方-1后又从零开始。
__be32 ack_seq;     //是下一个期望接收的字节，确认序号应当是上次已成功接收的序号+1，只有ack标志为1时确认序号字段才有效。一旦一个连接已经建立了，ack总是=1
#if defined(__LITTLE_ENDIAN_BITFIELD)  //小端
__u16 res1:4,  // 保留位
  doff:4,  //tcp头部长度，指明了在tcp头部中包含了多少个32位的字。由于options域的长度是可变的，所以整个tcp头部的长度也是变化的。4bit可表示最大值15，故15*32=480bit=60字节，所以tcp首部最长60字节。然后，没有任选字段，正常的长度是20字节
  fin:1, //发端完成发送任务
  syn:1, //同步序号用来发起一个连接
  rst:1, //重建连接
  psh:1, //接收方应该尽快将这个报文段交给应用层
  ack:1,  //一旦一个连接已经建立了，ack总是=1

  urg:1,  //紧急指针有效
  ece:1,
  cwr:1;
#elif defined(__BIG_ENDIAN_BITFIELD)
__u16 doff:4,
  res1:4,
  cwr:1,
  ece:1,
  urg:1,
  ack:1,
  psh:1,
  rst:1,
  syn:1,
  fin:1;
#else
#error "Adjust your <asm/byteorder.h> defines"
#endif
__be16 window;   //窗口大小，单位字节数，指接收端正期望接受的字节，16bit，故窗口大小最大为16bit=1111 1111 1111 1111（二进制）=65535（十进制）字节
__sum16 check;  //校验和校验的是整个tcp报文段，包括tcp首部和tcp数据，这是一个强制性的字段，一定是由发端计算和存储，并由收端进行验证。
__be16 urg_ptr;
};

所在头文件为/usr/src/linux/include/linux/ip.h，结构如下：

struct iphdr {

#if defined(__LITTLE_ENDIAN_BITFIELD) //小端模式下

__u8 ihl:4,//首部长度(4位)

version:4;//ip协议版本IPv4

#elif defined (__BIG_ENDIAN_BITFIELD) //大端模式下

__u8 version:4,

ihl:4;

#else

#error "Please fix <asm/byteorder.h>"

#endif

__u8 tos;//服务类型字段(8位)

__be16 -tot_len;//16位IP数据报总长度

__be16 -id;//16位标识字段（唯一表示主机发送的每一分数据报）

__be16 -frag_off;//(3位分段标志+13位分段偏移数)

__u8 ttl;//8位数据报生存时间

__u8 protocol;//协议字段（8位）

__be16 check;//16位首部校验和

__be32 saddr; //源IP地址

__be32 daddr; //目的IP地址

};

31 0

|----|----|------|--|-------------------|----------

|ver |ihl | -tos | -| tot_len |

|----|----|------|--|-------------------|

| id | frag_off -|

|---------|---------|-------------------|

| ttl |protocol | check | 20 Bytes

|---------|---------|-------------------|

| saddr |

|---------------------------------------|

| daddr |

|---------------------------------------|----------

| |

-| options | 40 Bytes

| |

|---------------------------------------|

IPv4 (Internel协议)头部

iphdr->version

版本(4位)，目前的协议版本号是4,因此IP有时也称作IPv4。

iphdr->ihl

首部长度(4位): 首部长度指的是IP层头部占32 bit字的数目(也就是IP层头部包含多少个4字节 -- 32位),包括任何选项。由于它是一个4比特字段,因此首部最长为60个字节。普通IP数据报(没有任何选择项)字段的值是5 <==> 5 * 32 / 8 = 5 * 4 = 20 Bytes

iphdr->tos

服务类型字段(8位): 服务类型(TOS)字段包括一个3 bit的优先权子字段(现在已被忽略)，4 bit的TOS子字段和1 bit未用位但必须置0。4 bit的TOS子字段分别代表:最小时延、最大吞吐量、最高可靠性和最

小费用。4 bit中只能设置其中1 bit。如果所有4 bit均为0,那么就意味着是一般服务。

iphdr->tot_len

总长度字段(16位)是指整个IP数据报的长度,以字节为单位。利用首部长度字段和总长度字段,就可以知道 IP数据报中数据内容的起始位置和长度。由于该字段长16比特,所以IP数据报最长可达65535字节

总长度字段是IP首部中必要的内容,因为一些数据链路(如以太网)需要填充一些数据以达到最小长度。尽管以太网的最小帧长为46字节,但是IP数据可能会更短。如果没有总长度字段,那么IP层就不知道46字节中有多少是IP数据报的内容。

iphdr->id

标识字段(16位)唯一地标识主机发送的每一份数据报。通常每发送一份报文它的值就会加1。

iphdr->frag_off (16位)

frag_off域的低13位 -- 分段偏移(Fragment offset)域指明了该分段在当前数据报中的什么位置上。除了一个数据报的最后一个分段以外，其他所有的 分段(分片)必须是8字节的倍数。这是8字节是基本分段单位。由于该域有13个位，所以，每个数据报最多有8192个分段。因此，最大的数据报长度为65,536字节，比iphdr->tot_len域还要大1。

iphdr->frag_off的高3位

(1) 比特0是保留的，必须为0；

(2) 比特1是“不分片”(DF -- Don't Fragment)标志,如果将这一比特置1，IP将不对数据报进行分片,这时如果有需要进行分片的数据报到来，会丢弃此数据报并发送一个ICMP差错报文给起始端。

(3) 比特2是“更多分片”(MF -- More Fragment)标志。除了最后一片外，其他每个组成数据报的片都要把该比特置1。

|---|-------------|

|DM0| offset |

|---|-------------|

15 1312 0

iphdr->ttl

TTL(time-to-live) -- 8位，生存时间字段设置了数据报可以经过的最多路由器数。它指定了数据报的生存时间。TTL的初始值由源主机设置(通常为32或64),一旦经过一个处理它的路由器,它的值就减去1。当该字段的值为0时,数据报就被丢弃,并发送ICMP报文通知源主机。

TTL(Time to live)域是一个用于限制分组生存期的计数器。这里的计数时间单位为秒，因此最大的生存期为255秒。在每一跳上该计数器必须被递减，而且，当数据报在一台路由器上排队时间较长时，该计数器必须被多倍递减。在实践中，它只是跳计数器，当它递减到0的时候，分组被丢弃，路由器给源主机发送一个警告分组。此项特性可以避免数据报长时间地逗留在网络中，有时候当路由表被破坏之后，这种事情是有可能发生的。

iphdr->protocol

协议字段(8位): 根据它可以识别是哪个协议向IP传送数据。

当网络层组装完成一个完整的数据报之后，它需要知道该如何对它进行处理。协议(Protocol)域指明了该将它交给哪个传输进程。TCP是一种可能，但是UDP或者其他的协议也是可能的。

iphdr->check

首部检验和字段(16位)是根据IP首部计算的检验和码。它不对首部后面的数据进行计算。 ICMP、IGMP、UDP和TCP在它们各自的首部中均含有同时覆盖首部和数据检验和码。

为了计算一份数据报的IP检验和,首先把检验和字段置为0。然后,对首部中每个16 bit进行二进制反码求和(整个首部看成是由一串16 bit的字组成),结果存在检验和字段中。当收到一份IP数据报后,同样对首部中每个16 bit进行二进制反码的求和。由于接收方在计算过程中包含了发送方存在首部中的检验和,因此,如果首部在传输过程中没有发生任何差错,那么接收方计算的结果应该为全1。如果结果不是全1(即检验和错误),那么IP就丢弃收到的数据报。但是不生成差错报文,由上层去发现丢失的数据报并进行重传。

iphdr->saddr

32位源IP地址

iphdr->daddr

32位目的IP地址

网络字节序

4个字节的32 bit值以下面的次序传输:首先是0~7bit,其次8~15bit,然后16~23bit,最后是24~31 bit。这种传输次序称作big endian字节序。由于TCP/IP首部中所有的二进制整数在网络中传输时都要求以这种次序,因此它又称作网络字节序。

不同的CPU有不同的字节序类型这些字节序是指整数在内存中保存的顺序这个叫做主机序
最常见的有两种
1． Little endian：将低序字节存储在起始地址
2． Big endian：将高序字节存储在起始地址

LE little-endian
最符合人的思维的字节序
地址低位存储值的低位
地址高位存储值的高位
怎么讲是最符合人的思维的字节序，是因为从人的第一观感来说
低位值小，就应该放在内存地址小的地方，也即内存地址低位
反之，高位值就应该放在内存地址大的地方，也即内存地址高位

BE big-endian
最直观的字节序
地址低位存储值的高位
地址高位存储值的低位
为什么说直观，不要考虑对应关系
只需要把内存地址从左到右按照由低到高的顺序写出
把值按照通常的高位到低位的顺序写出
两者对照，一个字节一个字节的填充进去

例子：在内存中双字0x01020304(DWORD)的存储方式

内存地址
4000 4001 4002 4003
LE 04 03 02 01
BE 01 02 03 04

例子：如果我们将0x1234abcd写入到以0x0000开始的内存中，则结果为
      big-endian  little-endian
0x0000  0x12      0xcd
0x0001  0x23      0xab
0x0002  0xab      0x34
0x0003  0xcd      0x12
x86系列CPU都是little-endian的字节序.

网络字节顺序是TCP/IP中规定好的一种数据表示格式，它与具体的CPU类型、操作系统等无关，从而可以保证数据在不同主机之间传输时能够被正确解释。网络字节顺序采用big endian排序方式。

为了进行转换 bsd socket提供了转换的函数有下面四个
htons 把unsigned short类型从主机序转换到网络序
htonl 把unsigned long类型从主机序转换到网络序
ntohs 把unsigned short类型从网络序转换到主机序
ntohl 把unsigned long类型从网络序转换到主机序

在使用little endian的系统中这些函数会把字节序进行转换
在使用big endian类型的系统中这些函数会定义成空宏

同样在网络程序开发时或是跨平台开发时也应该注意保证只用一种字节序不然两方的解释不一样就会产生bug.

注：
1、网络与主机字节转换函数:htons ntohs htonl ntohl (s 就是short l是long h是host n是network)
2、不同的CPU上运行不同的操作系统，字节序也是不同的，参见下表。
处理器    操作系统    字节排序
Alpha    全部    Little endian
HP-PA    NT    Little endian
HP-PA    UNIX    Big endian
Intelx86    全部    Little endian <-----x86系统是小端字节序系统
Motorola680x()    全部    Big endian
MIPS    NT    Little endian
MIPS    UNIX    Big endian
PowerPC    NT    Little endian
PowerPC    非NT    Big endian  <-----PPC系统是大端字节序系统
RS/6000    UNIX    Big endian
SPARC    UNIX    Big endian
IXP1200 ARM核心    全部    Little endian