socket编程的细节剖析(个人见解)

本文主要是介绍socket编程的细节剖析(个人见解)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

socket编程细节剖析
服务端：
1.创建套接字
要明白两点问题：
1.套接字是什么?
2.创建的这个套接字是用来干什么的?
第一个问题，一个完整的套接字本质上应该是一个包含通讯双方IP，端口等信息的类(源地址，源端口，目标地址，目标端口，协议)，这个类创建出来的对象经过初始化以后(TCP的三次握手就是对套接字进行初始化的过程)就是对应的两台机器用来互相通讯的套接字对象，完整的套接字本质上可以理解为包含两个指针的类，这两个指针分别指向服务器为客户端分配的端口对应的缓冲区和客户端用来和服务器通讯的端口对应的缓冲区，在这里我两次提到完整的套接字，其实就是区别于监听套接字的，因为监听套接字是一个不完整的套接字，它只包含服务端的IP地址(虽然我们在编程中没有输入这个参数，但实际上这应该是一个默认参数，默认为创建机器的IP)和端口号，所以它只能作为接收套接字，不能向客户端发送消息；
第二个问题，这个套接字是用来接收客户端的连接请求，并利用接受到的请求信息(请求信息中会包含客户端的IP和客户端的端口)为客户端重新创建一个用于独立通讯的套接字我们称之为响应套接字。但在这里创建的这个套接字是空的套接字，并没有初始化，就好比int a;我们并没有对a做初始化处理，所以理论上如果打印出来a应该是一个随机值，因此，我们要对创建出来的套接字进行绑定操作，所谓绑定，其实就是对套接字进行初始化操作，初始化以后，这个套接字中就包含了该机器的端口信息。
2.绑定
对于服务器软件，绑定套接字时，其实就是绑定端口，因为软件就是在本机上运行的IP地址就是自己，已经确认了，所以参数中没有IP地址，所谓绑定端口，其实我是这样理解的，无论是window还是linux系统，TCP缓冲区都被分成了若干部分，不同的端口对应着不同的缓冲区段，所以如果IP地址指向了缓冲区的首地址，端口其实是就是偏移量，因此，绑定过端口的套接字，其实就是一个指向该机器某一缓冲区片段的指针，我们可以在很多文章中看到socket数据包的最大限制，其实就是计算机缓冲区被分成若干单元后每个单元的最大值限制。在这里，我们绑定端口时需要用到一个结构，SOCKADDR_IN，这个结构里包含机器端口等信息，其实我猜测也许有个默认参数IP=服务器IP。绑定好端口后接下来就是监听端口了。
3.监听
所谓监听，就是机器不断检查该套接字指向的缓冲区片段中有没有数据进来，但这里的这个缓冲区进来的数据只可能是客户端连接请求信息，信息中包括客户端的IP地址和端口。
4.accept
当监听到有信息进来时，accept函数会立即为该客户端分配一个自由端口，并结合接收到的客户端IP及端口创建一个完整的响应套接字并作为返回值返回出来，这个套接字中包含了服务器IP(源地址)，服务器端口(源端口，也就是刚提到的服务器为客户端分配的自由端口)，客户端IP(目标地址，刚刚从客户端连接请求中接收到的)，客户端端口(目标端口，同客户端IP一样，刚刚从客户端连接请求中接收到的)，创建完成后，我们需要将这个套接字保存下来，用于之后的通讯，accept函数除了创建了相应套接字，还将刚刚为该客户端分配的自由端口返回给客户端，客户端接收到服务器返回的端口后，会重新设置自己之前创建的套接字(端口为服务器监听端口，现在需要更换为服务器重新分配的自由端口)，然后再给客户端返回一个确认信息，这一就构成了我们常说的TCP三次握手，最后再来总结一下三次握手干了什么，(1)第一次握手时，客户端创建了一个套接字，这个套接字源地址为客户端IP,源端口为客户端端口(虽然我们在创建的时候并没有输入这两个参数,但自身的IP肯定是默认参数，端口应该是随机分配的)，目标地址为服务器IP，目标端口为服务器开放的监听端口，这两个参数是我们手动输入的，然后携带了自己的IP地址和自己面向服务器开放的端口，发送给服务器，这个地方可以看出，套接字本身的元素(IP端口等)也是可以单独作为信息发送出去的，后面会再次讲道关于服务器端口重复应用及高并发的问题，和这个点有关；(2)第二次握手时，服务器为该客户端分配了一个自由端口，并利用客户端请求中携带的IP和端口信息创建一个响应套接字，源地址为服务器IP，源端口为刚刚为客户端分配的自由端口，目标地址为客户端IP，目标端口为客户端端口，然后将自己为客户端分配的端口发送给客户端；(3)第三次握手时，客户端接收到服务器重新发送回来的端口，重置之前创建的套接字(源地址为客户端IP,源端口为客户端端口，目标地址为服务器IP，目标端口为服务器开放的监听端口)，将目标端口改为新的端口，然后向服务器发送确认包。至此连接成功。由此看来，三次握手其实就是客户端服务器双方机器的套接字初始化的过程。
客户端：
1.创建套接字
这里还是一个空套接字，不作赘述。
2.设置地址端口
这里设置的地址是服务器的IP端口是服务器开放的监听端口，其实还设置了自身的IP及端口，即源地址源端口，只是IP是默认的，端口是内核随机分配的。
3.建立连接
建立连接就是三次握手的过程，把自身的IP端口发送给服务器，获得服务器重新分配的自由端口，替换之前绑定的监听端口，最后返回确认包。

最后再来讲一下数据收发的过程，经过TCP三次握手，服务器得到了一个套接字(源地址为服务器IP，源端口为服务器为该客户端分配的端口，目标地址为客户端IP，目标端口为客户端自己为该服务器分配的端口)。客户端也得到了一个套接字(源地址为客户端IP，源端口为客户端为该服务器分配的端口，目标地址为服务器IP，目标端口为服务器为该客户端分配的端口)。
之前说过两点问题：
第一，所谓IP其实就是机器在整个互联网空间中的指针，这个指针指向该机器内存的首地址，所谓端口就类似于偏移量。
第二，在发送信息的过程中，套接字中的元素自身也会作为信息被发送出去，这一点决定了服务器的端口为什么能被重复使用。
当客户端向服务器发送消息时，客户端将消息内容和自己的IP端口信息以及服务器的IP端口信息写到自己的端口对应的缓冲区中，接下来，传输层将消息发送至指定服务器指定端口对应的缓冲区，然后服务器再从对应缓冲中读取该消息。服务器发送消息到客户端时，过程相同。在这里会有两点值得考究的，也是容易产生疑问的两个点。
第一，为什么对于客户端或服务器来说，发送缓冲和接收缓冲都是同一个缓冲区，但是机器不会将自己刚刚发送到缓冲区的信息作为接收信息再读出来呢？第二，还是多台客户端为什么能共用服务器的客户端的问题。
先说第一个问题，当客户端发送消息时消息中套接字的源地址和源端口为客户端IP和端口，目标地址和目标端口为服务器IP和端口；反过来当客户端就收消息时，套接字的源地址和源端口为服务器IP和端口，目标地址和目标端口为客户端IP和端口，也就是包头决定了这条消息是自己发送的消息还是接收到的消息，服务器收发消息同上。
第二个问题，一般情况，服务器端口充足的情况下，服务器会为每台客户端分配一个独立的端口用于通讯，当客户端超过服务器端口数的时候，端口就要重用了，当两台客户端共用一个端口时，服务器与两台客户端收发消息都是用的用的同一个缓冲区那么如何实现信息不混乱的呢？当客户端A发来一条消息时，消息中包含的源地址和端口是A的IP和端口，服务器在判断后，会从对应的相匹配的套接字中读取消息，当客户端B发来消息时同上，这样就完全不会造成混乱了。
最后说一下，这里面对于IP地址和端口的理解和TCP收发过程的理解纯粹是我个人的理解，没有查阅标准的资料，不一定是正确的，但有助于理解，等查阅资料后如有问题再来更正。如果有大神看到后觉得完全胡扯，也请务必帮忙及时指正，以免误导更多人。

这篇关于socket编程的细节剖析(个人见解)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！