系统调用让这个世界运转

2023-11-03 22:30
文章标签 系统 世界 调用 运转

本文主要是介绍系统调用让这个世界运转,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【本文翻译自http://duartes.org/gustavo/blog/post/system-calls/,图片也是拷贝下来的原图,向原作致敬。译者FJ,联系fj_wind^@^126.com】

我真真是不愿意告诉你,一个用户应用程序其实就像一个扎进水缸的脑袋一样,非常无助,一无所知。

每一次和外界的交互都是通过内核的系统调用来完成的。如果一个应用程序要保存一个文件,写数据到终端,或者打开一个TCP连接,都会涉及到内核。应用程序实际上是被高度怀疑的:最好况下都被怀疑成 bug 丛生,最坏的话无异于一个天才恶魔的脑子。

系统调用 (System calls) 是从应用程序到内核的一些函数调用。出于安全的原因,它们采用了具体的机制,但实际上你仅仅是调用了内核的API。“系统调用 (System call) ” 可以指由内核提供的某个具体的函数(如,open()系统调用),或者说这种调用机制。也可以简单的叫做 syscall。

这篇文章将探讨系统调用与库的调用为何不同,还会介绍追踪这种 OS/app 之间接口的工具。扎实地理解了应用程序发生了什么,对应的通过操作系统发生了什么,就能够将一个不可能解决的问题变得快速有趣了。

这儿是一个运行的程序,一个用户进程(~/pid):

它拥有一个私有的虚拟地址空间,就像是一个自己的内存沙箱。也就是大水缸,如果愿意这样想的话。在它的地址空间中,程序的二进制文件加上它使用的库,都是经过内存映射的。地址空间的一部分映射的是内核本身。

下面是我们程序的代码,pid,简单的通过 getpid(2) 获取到它的进程id:

#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>int main()
{pid_t p = getpid();printf("%d\n", p);
}

在linux中,一个进程并非天生就知道它的PID。它必须询问内核,所以这需要一次系统调用:

一切都开始于调用 C 库函数 getpid(),它是一个系统调用的包裹函数。当你调用诸如 open(2),read(2) 这样的函数时,你就是在调用这些包裹函数。很多语言的本地方法最终都是在 libc 之中。

包裹函数在操作系统的裸 API 之上提供了便利,有助于保持内核的简洁(注:内核提供最简单的接口,更复杂的内容就在包裹函数中去实现)。代码所在之处,bug如影随形,所有的内核代码都是在特权模式下运行,任何错误都是灾难性的。任何事情只要能够在用户模式下完成的都应该在用户模式下完成。让库提供友好的方法和很好的参数处理,比如pirntf(3) 。

和web API相比,这类似于为一个服务构建最简单的 HTTP 接口,然后通过 helper 方法提供特定语言的库。或者有可能做一些缓存,这正是 libc 的 getpid() 所做的:当第一次调用它时的确执行了一次系统调用,但是获取到的 PID 会被缓存起来避免在后续调用中的系统调用开销。

一旦包裹函数完成其初始工作,就会陷进内核中去。这种转换的机制会因处理器架构而不同。在 Intel 的处理器上,参数和系统调用的编号会被载入寄存器,接着执行一个指令将 CPU 转换到特权模式,然后立即将控制权交给内核中的全局系统调用入口。如果你对此细节感兴趣,David Drysdale 有两篇很棒的文章。

内核利用系统调用编号作为索引查询 sys_call_table,它是一个包含每个系统调用具体实现的函数指针的数组。现在,sys_getpid 将被调用:

在 Linux 上,系统调用的实现基本上是架构独立的 C 语言函数,有时候则是很简单的,由内核绝佳的设计使其和系统调用的机制完全隔绝。它们只是工作在通用数据结构上的常规代码。好吧,除开完全偏执的参数验证。

一旦它们的工作完成,正常情况下就会 return,然后特定架构的代码会负责转换回用户模式,让包裹函数接着做一些后续处理。在我们的例子中,getpid(2) 会缓存内核返回的 PID。其它的包裹函数可能会设置全局的 errno 变量,如果内核返回一个错误的话。一些小事情让你知道 GNU 关心什么。

如果你想原始一点,glibc 提供了 syscall(2) 这个函数,可以不用包裹函数执行一个系统调用。你也可以自己用汇编来实现。关于 C 库,这儿没有什么神奇的事情或特权。

这种系统调用的设计有着意义深远的重要性。让我们从一个难以置信的有用的命令 strace(1) 开始,这是一个你可以用来侦视系统 Linux 进程所调用的系统调用的工具(在 Mac 上,参考 dtruss(1) 以及 dtrace;在 windows上,参考 sysinternals)。这就是 strace pid 的结果:

~/code/x86-os$ strace ./pidexecve("./pid", ["./pid"], [/* 20 vars */]) = 0
brk(0)                                  = 0x9aa0000
access("/etc/ld.so.nohwcap", F_OK)      = -1 ENOENT (No such file or directory)
mmap2(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7767000
access("/etc/ld.so.preload", R_OK)      = -1 ENOENT (No such file or directory)
open("/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3
fstat64(3, {st_mode=S_IFREG|0644, st_size=18056, ...}) = 0
mmap2(NULL, 18056, PROT_READ, MAP_PRIVATE, 3, 0) = 0xb7762000
close(3)                                = 0[...snip...]getpid()                                = 14678
fstat64(1, {st_mode=S_IFCHR|0600, st_rdev=makedev(136, 1), ...}) = 0
mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7766000
write(1, "14678\n", 614678
)                  = 6
exit_group(6)                           = ?

输出的每一行都显示了一个系统调用,及其参数和返回值。如果你让 getpid(2) 在一个循环中调用1000次,你也只会看到一次 getpid() 系统调用,因为 PID 被缓存了。我们同样可以看到 printf(3) 在格式化好输出字符串后调用了 write(2) 。

strace 命令可以启动一个新的进程,也可以 attach 一个已经运行着的进程。你可以从这些不同的程序所调用的系统调用中学到很多东西。比如说,sshd 这个守护进程整天都在干啥?

~/code/x86-os$ ps ax | grep sshd
12218 ?        Ss     0:00 /usr/sbin/sshd -D~/code/x86-os$ sudo strace -p 12218
Process 12218 attached - interrupt to quit
select(7, [3 4], NULL, NULL, NULL[... nothing happens ... No fun, it's just waiting for a connection using select(2)If we wait long enough, we might see new keys being generated and so on, butlet's attach again, tell strace to follow forks (-f), and connect via SSH
]~/code/x86-os$ sudo strace -p 12218 -f[lots of calls happen during an SSH login, only a few shown][pid 14692] read(3, "-----BEGIN RSA PRIVATE KEY-----\n"..., 1024) = 1024
[pid 14692] open("/usr/share/ssh/blacklist.RSA-2048", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
[pid 14692] open("/etc/ssh/blacklist.RSA-2048", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
[pid 14692] open("/etc/ssh/ssh_host_dsa_key", O_RDONLY|O_LARGEFILE) = 3
[pid 14692] open("/etc/protocols", O_RDONLY|O_CLOEXEC) = 4
[pid 14692] read(4, "# Internet (IP) protocols\n#\n# Up"..., 4096) = 2933
[pid 14692] open("/etc/hosts.allow", O_RDONLY) = 4
[pid 14692] open("/lib/i386-linux-gnu/libnss_dns.so.2", O_RDONLY|O_CLOEXEC) = 4
[pid 14692] stat64("/etc/pam.d", {st_mode=S_IFDIR|0755, st_size=4096, ...}) = 0
[pid 14692] open("/etc/pam.d/common-password", O_RDONLY|O_LARGEFILE) = 8
[pid 14692] open("/etc/pam.d/other", O_RDONLY|O_LARGEFILE) = 4

SSH 是一块大骨头,不过这展示了 strace 的用法。能够查看到应用程序打开了哪个文件是很有用的(“配置文件从哪个鬼地方来的?”)。如果你有一个进程貌似卡住了,你就可以 strace 一把看看它通过系统调用在干什么。有时候一个应用程序意外地退出了,没有留下合适的错误信息,试试看是否某个系统调用失败会给出解释。你也可以使用过滤器,每次调用时间,等等:

~/code/x86-os$ strace -T -e trace=recv curl -silent www.google.com. > /dev/nullrecv(3, "HTTP/1.1 200 OK\r\nDate: Wed, 05 N"..., 16384, 0) = 4164 <0.000007>
recv(3, "fl a{color:#36c}a:visited{color:"..., 16384, 0) = 2776 <0.000005>
recv(3, "adient(top,#4d90fe,#4787ed);filt"..., 16384, 0) = 4164 <0.000007>
recv(3, "gbar.up.spd(b,d,1,!0);break;case"..., 16384, 0) = 2776 <0.000006>
recv(3, "$),a.i.G(!0)),window.gbar.up.sl("..., 16384, 0) = 1388 <0.000004>
recv(3, "margin:0;padding:5px 8px 0 6px;v"..., 16384, 0) = 1388 <0.000007>
recv(3, "){window.setTimeout(function(){v"..., 16384, 0) = 1484 <0.000006>

我建议你在自己的操作系统上探索这些工具。把这些工具用好就超神了。

足够有用的东西了,让我们回头看看设计。我们已经看到一个用户级应用程序是被限制在它的虚拟地址空间中以 ring 3(非特权)级别运行的。一般来讲,只与计算和内存访问相关的任务不需要系统调用。例如,C 库中的 strlen(3) 和 memcpy(3) 这些函数与内核不相关。这些任务都是发生载应用程序之中。

man 帮助文档中有关 C 库函数的部分(小括号中的 2 和 3)也提供了线索。第 2 节是系统调用的包裹函数,第 3 节包含了其它的 C 库函数。不过,如我们看到的 printf(3),一个库函数也可能最终调用一个或多个系统调用。

如果你很好奇,这里有 Linux 上所有的系统调用(同样在 Filippo’s 上的列表)以及Windows。它们分别有大约 310 和 460 个系统调用。看上去很有意思,它们表明了在软件在一个现代计算机上能做的所有事情。另外,你可能会发现诸如进程间通信和性能方面的精髓。这正是 “那些不懂得 UNIX 就注定会重复造车” 的领域。

很多系统调用执行的任务都会花掉超多的 CPU 周期,比方说从一个硬盘读取东西。在这种场景中,调用进程通常会被投入睡眠,直到底层的工作完成。由于 CPU 速度非常之快,你的程序一般情况下是 I/O 密集型的,就会有大多数时间处于睡眠状态,等待系统调用。相比之下,如果你 strace 一个忙于计算型任务的程序,则经常会发现没有产生系统调用。在这种情况下,top(1) 命令会显示巨大的 CPU 使用率。

系统调用带来的开销是一个问题。比如,SSD 已经如此之快以至于操作系统的开销会比 I/O 操作本身还大。程序有大量的读写工作会使操作系统的开销成为其瓶颈。向量 IO 可以帮上忙。内存映射文件也行,允许程序从磁盘中仅通过访问内存就读写数据。类似于视频显卡内存中的映射。Eventually, the economics of cloud computing might lead us to kernels that eliminate or minimize user/kernel mode switches.(译者注:刚开始这句话我没有明白是什么意思,就向作者发邮件询问了一下,下面是作者的答复。我觉得这句话无碍于理解文章主旨,就不翻译了吧)

Yes, that sentence was a bit cryptic. What I meant was this: nowadays we have a lot of cloud servers that only do ONE thing (like they run one web application, for example). In those cases it makes less sense to have a strict separation of OS and programs, since we really care about one program. So perhaps we could eliminate the OS / application barrier, and make the one-and-only running application run in OS mode, to get a little more performance. If we’re talking about thousands of machines, this could make a difference in money and electricity terms. That’s what I meant, hope this clears it up.

最后,系统调用有些有意思的安全实现。有一点就是,无论怎样模糊一个程序的二进制,你仍然可以通过查看它产生的系统调用来检测它的行为。这可以被用作侦测恶意软件。我们也可以记录下一个程序的系统调用使用情况,对其有偏差的行为发出警告,或者为程序提供具体系统调用的白名单,如此使得利用漏洞变得更加困难。我们在此领域有了许多研究,但仅仅是一些列工具,还没有杀手级的解决方法。

以上就是系统调用的内容。写的有些长了,希望有所用处。(后文略)

这篇关于系统调用让这个世界运转的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/341287

相关文章

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

【网络安全的神秘世界】搭建dvwa靶场

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 下载DVWA https://github.com/digininja/DVWA/blob/master/README.zh.md 安装DVWA 安装phpstudy https://editor.csdn.net/md/?articleId=1399043

C语言入门系列:探秘二级指针与多级指针的奇妙世界

文章目录 一,指针的回忆杀1,指针的概念2,指针的声明和赋值3,指针的使用3.1 直接给指针变量赋值3.2 通过*运算符读写指针指向的内存3.2.1 读3.2.2 写 二,二级指针详解1,定义2,示例说明3,二级指针与一级指针、普通变量的关系3.1,与一级指针的关系3.2,与普通变量的关系,示例说明 4,二级指针的常见用途5,二级指针扩展到多级指针 小结 C语言的学习之旅中,二级

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

ScrollView 非手动调用的方法

1. /**  *  非人为的时候调用这个方法  *  *  @param scrollView <#scrollView description#>  */ - (void)scrollViewDidEndScrollingAnimation:(UIScrollView *)scrollView {           } 2.判断控制器的view是否加载过 [willShowVC

每日一练:攻防世界:5-1 MulTzor

一、XorTool 基于 XOR(异或)运算实现。它可以帮助您快速地对文本、二进制文件进行加密解密操作。 认识XorTool工具: 让我们先去认识一下工具: xortool.py 是基于 python 的脚本,用于完成一些 xor 分析,包括: 猜想 key 的长度 猜想 key 的值 解密一些经过 xoe 加密的文件 也就是说当遇到不知道文件类型的文件,可以尝试去看看它是否被xo

Django 路由系统详解

Django 路由系统详解 引言 Django 是一个高级 Python Web 框架,它鼓励快速开发和干净、实用的设计。在 Django 中,路由系统是其核心组件之一,负责将用户的请求映射到相应的视图函数或类。本文将深入探讨 Django 的路由系统,包括其工作原理、配置方式以及高级功能。 目录 路由基础URL 映射路由参数命名空间URL 反向解析路由分发include 路由路由修饰符自

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一