Linux TUN设备实现Tunnel性能分析

2024-04-04 05:28

本文主要是介绍Linux TUN设备实现Tunnel性能分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、TUN/TAP设备原理:

Linux的TUN/TAP设备是一种可以使得应用层与TCP/IP协议栈交互的驱动模块,通常用于组建虚拟局域网中的点对点隧道(Tunnel),可以工作于2层(TAP设备)和3层(TUN设备)数据交换。其工作原理图如下:

1. 数据发送流程

  1. 应用程序通过socket向192.168.1.22地址发送数据{DATA}

  2. 数据进入内核协议栈,协议栈构造IP报文,生成{IP{DATA}}数据,并且分发到虚拟网卡

  3. 虚拟网卡将数据{IP{DATA}}转发到TUN驱动

  4. TUN App从TUN驱动读取到{IP{DATA}}数据,

  5. TUN App通过物理socket发送数据到内核协议栈,

  6. 内核协议栈对数据进行IP报文封装{IP{IP{DATA}}},传送到物理网卡

  7. 数据经过物理网卡送出MAC帧报文{MAC{IP{IP{DATA}}}}

上述流程中:

  • 1为socket write操作(用户空间到内核空间的数据交换)

  • 2,3均为内核数据交换

  • 4为fd read操作(内核空间到用户空间数据交换)

  • 5为socket write操作(用户空间到内核空间数据交换)

  • 6,7均为内核数据交换

2. 数据接收流程

  1. 物理网卡收取到来自网络的MAC帧报文数据包{MAC{IP{IP{DATA}}}},解包

  2. 数据包{IP{IP{DATA}}}进入内核协议栈,进行IP层解包生成{IP{DATA}}数据

  3. 根据数据包地址,数据被分配到TUN App的物理socket

  4. TUN App从socket读出数据{IP{DATA}},然后写入TUN 驱动

  5. TUN 驱动根据写入的IP包目标地址将地址送入对应的虚拟网卡

  6. 虚拟网卡将{IP{DATA}}送入内核协议栈

  7. 协议栈解包成{DATA}送到应用程序的socket

上述流程中:

  • 1,2均为内核数据交换

  • 3为socket read操作(内核空间到用户空间数据交换)

  • 4为fd write操作(用户空间到内核空间数据交换)

  • 5,6均为内核数据交换

  • 7为socket read操作(内核空间到用户空间数据交换)

为了对比,下图显示了直连情况下网络数据的收发流程:

3. 性能损耗点

对比直连网络,通过TUN隧道实现的数据流程中,发送流程中多出了一次TUN fd的读+一次socket写,接收流程中多出了一次socket的读+一次TUN fd的写,这些操作均由运行于用户态的TUN App完成,并且均涉及到用户态到内核态的数据交换,所以性能相比直连网络来说一定会有损耗。我们需要通过一定的测试方法来量化TUN隧道网络的性能跟直连网络的差距,并且找到瓶颈所在,然后提出可行的优化方法。

二、性能测试方法:

  1. 实现一个底层通过UDP建立隧道的TUN Proxy App(分别采用epoll和select模型实现)

  2. 在在两台机器上部署TUN Proxy App,组成VLAN

  3. 使用SCP程序在两台主机之间通过物理连接进行文件copy操作,记录传输性能参数

  4. 使用SCP程序在两台主机之间通过TUN隧道进行文件copy操作,记录传输性能参数

  5. 对比使用物理直连网络和TUN隧道网络传输的性能差异

采用epoll模型的TUN Proxy App的核心逻辑如下:

void packet_switch_epoll::process() {
  logi() << "+++++ process worker is running...";

  if (!evt_.open()) {
    loge() << "failed to open evtio";
    return;
  }

  evtio::evt_context tun_ctx_(fd_tun_, nullptr);
  evtio::evt_context udp_ctx(fd_socket_, nullptr);
  if (!evt_.attach(&tun_ctx_, evtio::op_read)) {
    loge() << "failed to add tun fd to evtio";
    return;
  }

  if (!evt_.attach(&udp_ctx, evtio::op_read)) {
    evt_.detach(&tun_ctx_);
    loge() << "failed to add udp fd to evtio";
    return;
  }

  exit_ = false;

  std::array<uint8_t, 16 * 1024> buf;
  evtio::evt_event_list events;
  while (!exit_) {
    bool ok = evt_.wait(events, 2, -1);
    if (!ok) {
      logw() << "failed to wait";
    }

    for (auto e : events) {
      if (e.context->handle == fd_tun_) {
        forward_with_rw(buf.data(), buf.size(), fd_tun_, fd_socket_);
      } else if (e.context->handle == fd_socket_) {
        forward_with_rw(buf.data(), buf.size(), fd_socket_, fd_tun_);
      } else {
        loge() << "unknown event";
      }
    }
  }

  evt_.close();

  logi() << "----- process worker is exiting...";
}

三、测试结果:

1. scp通过局域网直连,传输10次结果如下:

sample.txt 100%  512MB  47.9MB/s   00:10   
sample.txt 100%  512MB  50.7MB/s   00:10   
sample.txt 100%  512MB  51.6MB/s   00:09   
sample.txt 100%  512MB  49.1MB/s   00:10   
sample.txt 100%  512MB  52.6MB/s   00:09   
sample.txt 100%  512MB  52.4MB/s   00:09   
sample.txt 100%  512MB  51.9MB/s   00:09   
sample.txt 100%  512MB  49.7MB/s   00:10   
sample.txt 100%  512MB  52.0MB/s   00:09   
sample.txt 100%  512MB  50.0MB/s   00:10 

2. scp通过vnet-agent(epoll实现),传输10次结果如下:

sample.txt 100%  512MB  27.3MB/s   00:18   
sample.txt 100%  512MB  28.2MB/s   00:18   
sample.txt 100%  512MB  26.9MB/s   00:19   
sample.txt 100%  512MB  26.8MB/s   00:19   
sample.txt 100%  512MB  25.4MB/s   00:20   
sample.txt 100%  512MB  24.1MB/s   00:21   
sample.txt 100%  512MB  27.8MB/s   00:18   
sample.txt 100%  512MB  23.6MB/s   00:21   
sample.txt 100%  512MB  27.0MB/s   00:18   
sample.txt 100%  512MB  27.5MB/s   00:18    

3. scp通过vnet-agent(select实现),传输10次结果如下:

sample.txt  512MB  19.0MB/s   00:26   
sample.txt  512MB  23.4MB/s   00:21   
sample.txt  512MB  24.4MB/s   00:20   
sample.txt  512MB  24.7MB/s   00:20   
sample.txt  512MB  24.5MB/s   00:20   
sample.txt  512MB  26.4MB/s   00:19   
sample.txt  512MB  26.3MB/s   00:19   
sample.txt  512MB  26.3MB/s   00:19   
sample.txt  512MB  24.2MB/s   00:21   
sample.txt  512MB  26.6MB/s   00:19 

4. 综合对比

结论:

1. 通过TUN隧道会导致网络传输性能损耗超过50%,

2. TUN Proxy App由于只管理有限的socket数量,所以采用select和epoll模型并没有太大性能差异

四、瓶颈分析:

TUN设备驱动内核层的数据交换损耗相对网络IO和用户态和内核态的数据交换来说可以忽略,所以加入TUN隧道代理之后,整体网络性能损耗都是由于运行于应从层的TUN Proxy App引入的。

TUN Proxy App的主要工作为在TUN设备fd和物理连接socket之间进行数据转移:

  • 从TUN设备fd读取要发送的数据到用户空间,然后写入物理连接socket(内核空间)

  • 从物理连接socket读取要收取的数据到用户空间,然后写入TUN设备fd(内核空间)

可以看到以上性能损耗主要存在于数据在用户态和内核态之间的交换。

通过Profiler工具采集scp的发送端的TUN Proxy App分析可以验证如下结果:

耗时主要集中在转发数据的函数中:

int forward_with_rw(uint8_t* buf, int size, int in_fd, int out_fd) {// paratmersint rlen = 0;int wlen = 0;int left = 0;int offset = 0;// read data from sourcerlen = ::read(in_fd, buf, size);if (rlen <= 0) {loge() << "failed to read data from in fd:" << strerror(errno);return -1;}logv() << "<<<< read " << rlen << " bytes from in fd";// write all source data to destinationleft = rlen;offset = 0;while (left) {wlen = ::write(out_fd, buf + offset, left);if (wlen <= 0) {loge() << "failed to write data to out fd:" << strerror(errno);return (rlen - left);}logv() << ">>>> write " << wlen << " bytes to out fd";offset += wlen;left -= wlen;}return wlen;
}

五、解决方案:

TUN Proxy App的性能问题主要是由于在两个fd之间进行数据转移时候产生了两次跨用户/内核态的数据copy,优化方向就是使用更高效的方法来实现在不同fd之间进行zero-copy的数据转移。

1. Linux系统提供了以下技术来实现不同fd之间高效的数据转移方式:

1.sendfile

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count)

sendfile可以直接在内核完成把文件内指定range的数据转移到目标fd内,无需在内核态和用户态之间进行切换。该技术的限制是out_fd必须为一个支持类似mmap功能的文件描述符,socket和tun fd均无法支持,所以此技术不适用。

2.splice

ssize_t splice(int fd_in, off64_t *off_in, int fd_out, off64_t *off_out, size_t len, unsigned int flags);

splice可以利用一个中间pipe实现把数据在fd_in和fd_out之间进行转移,数据操作均发生在内核态,无需切换。实现代码如下:

int forward_with_splice(int in_fd, int out_fd, int pipe[2]) {int rc = 0;// move data from in fd to piperc = splice(in_fd, nullptr, pipe[1], nullptr, 4096, SPLICE_F_MOVE | SPLICE_F_MOVE);if (rc <= 0) {loge() << "failed to move data from in fd to pipe:" << strerror(errno);return -1;}// move data from pipe to out fdrc = splice(pipe[0], nullptr, out_fd, nullptr, rc, SPLICE_F_MOVE | SPLICE_F_MOVE);if (rc <= 0) {loge() << "failed to move data to pipe to out fd" << strerror(errno);return -1;}return rc;
}

splice的要求是fd_in或者fd_out之一必须为pipe,而另一个fd的内核实现中必须支持splice_read, splice_write, sendpage三个文件操作,但是tun fd并没有实现这三个操作,所以目前slice无法支持splice操作。

tun驱动模块源码(linux/drivers/net/tun.c)


static const struct file_operations tun_fops = {
.owner = THIS_MODULE,
.llseek = no_llseek,
.read_iter  = tun_chr_read_iter,
.write_iter = tun_chr_write_iter,
.poll = tun_chr_poll,
.unlocked_ioctl = tun_chr_ioctl,
#ifdef CONFIG_COMPAT
.compat_ioctl = tun_chr_compat_ioctl,
#endif
.open = tun_chr_open,
.release = tun_chr_close,
.fasync = tun_chr_fasync,
#ifdef CONFIG_PROC_FS
.show_fdinfo = tun_chr_show_fdinfo,
#endif
};

2. 可行方案

由于TUN模块开发的时候linux还没有splice技术,所以直到如今,都没有开发者来支持该功能,为了优化TUN模块的性能,我们可以选择为TUN模块实现此功能,实现之后的应用方式可以有两种

  1. 直接修改tun.c然后,提供一个支持splice技术的tun模块

  2. 保持tun模块现有能力,基于tun.c实现一个新的私有模块并且支持splice,可以于现有tun共存于内核中

以上两种方式稳定之后均可以向linux内核提交patch。

支持splice操作之后,保守估计TUN隧道网络的性能至少能达到直连网络的90%。

六、补充测试数据

===================== Test UDP-Direct bandwidth =====================

Connecting to host 172.16.203.128, port 5201

[  5] local 172.16.203.129 port 36058 connected to 172.16.203.128 port 5201

[ ID] Interval           Transfer     Bitrate         Total Datagrams

[  5]   0.00-1.00   sec  53.3 MBytes  53.3 MBytes/sec  38602  

[  5]   1.00-2.00   sec  54.6 MBytes  54.6 MBytes/sec  39569  

[  5]   2.00-3.00   sec  54.9 MBytes  54.9 MBytes/sec  39761  

[  5]   3.00-4.00   sec  54.8 MBytes  54.8 MBytes/sec  39712  

[  5]   4.00-5.00   sec  54.8 MBytes  54.8 MBytes/sec  39712  

[  5]   5.00-6.00   sec  55.0 MBytes  55.0 MBytes/sec  39825  

[  5]   6.00-7.00   sec  55.5 MBytes  55.5 MBytes/sec  40203  

[  5]   7.00-8.00   sec  55.4 MBytes  55.4 MBytes/sec  40134  

[  5]   8.00-9.00   sec  55.5 MBytes  55.5 MBytes/sec  40196  

[  5]   9.00-10.00  sec  55.7 MBytes  55.6 MBytes/sec  40300  

- - - - - - - - - - - - - - - - - - - - - - - - -

[ ID] Interval       Transfer   Bitrate         Jitter    Lost/Total Datagrams

[  5] 0.00-10.00 sec 550 MBytes  55.0 MBytes/sec  0.000 ms  0/398014 (0%)  sender

[  5] 0.00-9.98  sec 513 MBytes  51.4 MBytes/sec  0.014 ms  26226/398014 (6.6%)  receiver

 

iperf Done.

===================== Test UDP-over-TUN bandwidth =====================

Connecting to host 10.0.0.11, port 5201

[  5] local 10.0.0.22 port 43678 connected to 10.0.0.11 port 5201

[ ID] Interval           Transfer     Bitrate         Total Datagrams

[  5]   0.00-1.00   sec  78.1 MBytes  78.1 MBytes/sec  56524  

[  5]   1.00-2.00   sec  78.5 MBytes  78.5 MBytes/sec  56867  

[  5]   2.00-3.00   sec  78.8 MBytes  78.8 MBytes/sec  57060  

[  5]   3.00-4.00   sec  78.9 MBytes  78.9 MBytes/sec  57137  

[  5]   4.00-5.00   sec  78.7 MBytes  78.7 MBytes/sec  56962  

[  5]   5.00-6.00   sec  79.1 MBytes  79.1 MBytes/sec  57305  

[  5]   6.00-7.00   sec  79.0 MBytes  79.0 MBytes/sec  57197  

[  5]   7.00-8.00   sec  78.5 MBytes  78.5 MBytes/sec  56823  

[  5]   8.00-9.00   sec  78.7 MBytes  78.7 MBytes/sec  57017  

[  5]   9.00-10.00  sec  78.5 MBytes  78.5 MBytes/sec  56816  

- - - - - - - - - - - - - - - - - - - - - - - - -

[ ID] Interval       Transfer     Bitrate         Jitter    Lost/Total Datagrams

[  5] 0.00-10.00 sec 787 MBytes  78.7 MBytes/sec  0.000 ms  0/569708 (0%)  sender

[  5] 0.00-10.19 sec 228 MBytes  22.4 MBytes/sec  0.180 ms  404614/569704 (71%)  receiver

 

iperf Done.

===================== Test TCP-Direct bandwidth =====================

Connecting to host 172.16.203.128, port 5201

[  5] local 172.16.203.129 port 40554 connected to 172.16.203.128 port 5201

[ ID] Interval           Transfer     Bitrate         Retr  Cwnd

[  5]   0.00-1.00   sec  48.3 MBytes  48.3 MBytes/sec    0   2.31 MBytes       

[  5]   1.00-2.00   sec  29.6 MBytes  29.6 MBytes/sec    0   2.70 MBytes       

[  5]   2.00-3.00   sec  31.0 MBytes  31.0 MBytes/sec    0   2.70 MBytes       

[  5]   3.00-4.00   sec  31.4 MBytes  31.4 MBytes/sec    0   2.70 MBytes       

[  5]   4.00-5.00   sec  31.0 MBytes  31.0 MBytes/sec    0   2.70 MBytes       

[  5]   5.00-6.00   sec  31.1 MBytes  31.1 MBytes/sec    0   2.70 MBytes       

[  5]   6.00-7.00   sec  31.8 MBytes  31.8 MBytes/sec    0   2.70 MBytes       

[  5]   7.00-8.00   sec  31.0 MBytes  31.0 MBytes/sec    0   2.70 MBytes       

[  5]   8.00-9.00   sec  31.8 MBytes  31.7 MBytes/sec    0   2.70 MBytes       

[  5]   9.00-10.00  sec  31.5 MBytes  31.5 MBytes/sec    0   2.70 MBytes       

- - - - - - - - - - - - - - - - - - - - - - - - -

[ ID] Interval           Transfer     Bitrate         Retr

[  5]   0.00-10.00  sec   328 MBytes  32.8 MBytes/sec    0             sender

[  5]   0.00-10.04  sec   328 MBytes  32.7 MBytes/sec                  receiver

 

iperf Done.

===================== Test TCP-over-TUN bandwidth =====================

Connecting to host 10.0.0.11, port 5201

[  5] local 10.0.0.22 port 32876 connected to 10.0.0.11 port 5201

[ ID] Interval           Transfer     Bitrate         Retr  Cwnd

[  5]   0.00-1.00   sec  19.6 MBytes  19.6 MBytes/sec  152    127 KBytes       

[  5]   1.00-2.00   sec  20.4 MBytes  20.4 MBytes/sec    0    218 KBytes       

[  5]   2.00-3.00   sec  18.8 MBytes  18.8 MBytes/sec   68    147 KBytes       

[  5]   3.00-4.00   sec  20.1 MBytes  20.1 MBytes/sec    0    229 KBytes       

[  5]   4.00-5.00   sec  20.4 MBytes  20.4 MBytes/sec    1    233 KBytes       

[  5]   5.00-6.00   sec  19.8 MBytes  19.8 MBytes/sec   70    158 KBytes       

[  5]   6.00-7.00   sec  19.6 MBytes  19.6 MBytes/sec   47    140 KBytes       

[  5]   7.00-8.00   sec  20.0 MBytes  20.0 MBytes/sec   23    148 KBytes       

[  5]   8.00-9.00   sec  18.6 MBytes  18.6 MBytes/sec    8    150 KBytes       

[  5]   9.00-10.00  sec  19.6 MBytes  19.6 MBytes/sec   19    189 KBytes       

- - - - - - - - - - - - - - - - - - - - - - - - -

[ ID] Interval           Transfer     Bitrate         Retr

[  5]   0.00-10.00  sec   197 MBytes  19.7 MBytes/sec  388             sender

[  5]   0.00-9.99   sec   195 MBytes  19.5 MBytes/sec                  receiver

 

iperf Done.

七、应用层读写操作API与TUN FD的兼容性

支持

read/write

✅ 

readv/writev

✅ 

recv/send

❌ 

ENOTSOCK(88)Socket operation on non-socket

recvmsg/sendmsg

❌ 

ENOTSOCK(88)Socket operation on non-socket

recvmmsg/sendmmsg

❌ 

ENOTSOCK(88)Socket operation on non-socket


 

这篇关于Linux TUN设备实现Tunnel性能分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/874903

相关文章

VScode连接远程Linux服务器环境配置图文教程

《VScode连接远程Linux服务器环境配置图文教程》:本文主要介绍如何安装和配置VSCode,包括安装步骤、环境配置(如汉化包、远程SSH连接)、语言包安装(如C/C++插件)等,文中给出了详... 目录一、安装vscode二、环境配置1.中文汉化包2.安装remote-ssh,用于远程连接2.1安装2

Java中使用Java Mail实现邮件服务功能示例

《Java中使用JavaMail实现邮件服务功能示例》:本文主要介绍Java中使用JavaMail实现邮件服务功能的相关资料,文章还提供了一个发送邮件的示例代码,包括创建参数类、邮件类和执行结... 目录前言一、历史背景二编程、pom依赖三、API说明(一)Session (会话)(二)Message编程客

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》:本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历:2、Java8 Stream API:3、Apache Commons

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

使用Python实现高效的端口扫描器

《使用Python实现高效的端口扫描器》在网络安全领域,端口扫描是一项基本而重要的技能,通过端口扫描,可以发现目标主机上开放的服务和端口,这对于安全评估、渗透测试等有着不可忽视的作用,本文将介绍如何使... 目录1. 端口扫描的基本原理2. 使用python实现端口扫描2.1 安装必要的库2.2 编写端口扫

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

MySQL分表自动化创建的实现方案

《MySQL分表自动化创建的实现方案》在数据库应用场景中,随着数据量的不断增长,单表存储数据可能会面临性能瓶颈,例如查询、插入、更新等操作的效率会逐渐降低,分表是一种有效的优化策略,它将数据分散存储在... 目录一、项目目的二、实现过程(一)mysql 事件调度器结合存储过程方式1. 开启事件调度器2. 创

使用Python实现操作mongodb详解

《使用Python实现操作mongodb详解》这篇文章主要为大家详细介绍了使用Python实现操作mongodb的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、示例二、常用指令三、遇到的问题一、示例from pymongo import MongoClientf

SQL Server使用SELECT INTO实现表备份的代码示例

《SQLServer使用SELECTINTO实现表备份的代码示例》在数据库管理过程中,有时我们需要对表进行备份,以防数据丢失或修改错误,在SQLServer中,可以使用SELECTINT... 在数据库管理过程中,有时我们需要对表进行备份,以防数据丢失或修改错误。在 SQL Server 中,可以使用 SE

基于Go语言实现一个压测工具

《基于Go语言实现一个压测工具》这篇文章主要为大家详细介绍了基于Go语言实现一个简单的压测工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录整体架构通用数据处理模块Http请求响应数据处理Curl参数解析处理客户端模块Http客户端处理Grpc客户端处理Websocket客户端