Linux基础I/O之文件缓冲区

本文主要是介绍Linux基础I/O之文件缓冲区，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、缓冲区的基本概念

缓冲区这个概念，我相信大家或多或少的有听到过，那么其到底是个什么东西呢？简单地理解一下，其可以被看做一部分的内存（可以认为是malloc来的）。

那为什么要有缓冲区这个东西呢？其有什么作用呢？先说结论，缓冲区的主要作用就是来提高我们的效率（提高使用者的效率，提高发送效率）。那其是如何做到提高效率的呢？这里我给大家举个例子：
比如说发快递，通常我们寄快递都会送到菜鸟驿站，但是其不会立刻将我们的快递发送出去而是会积累一部分快递，等到一定程度再进行发送。由此我们可知，因为由（驿站）缓冲区的存在，我们可以积累一部分的数据在统一进行发送。而根据我们的冯诺依曼体系结构可知，我们的内存跟硬件设备的交互是很慢的，为了避免过多的交互操作，于是就有了缓冲区的概念，先将内容写入到缓冲区中，等到一定规模之后，再统一的写入到硬件资源中，这就可以提高我们OS的效率。

缓冲区因为能够暂存数据，必定要有一定的刷新方式，因为其到时需要向硬件写入资源：

无缓冲（立即刷新）：每次写入数据都会立即被写入目标，无任何缓冲。适用于对实时性要求高的场景，例如标准错误输出。

行缓冲（行刷新）：每当遇到换行符时，缓冲区中的数据会被刷新到目标。这种模式适用于文本文件或控制台输出，使输出操作更高效，但每行的结束会触发刷新。

全缓冲（缓冲区满了再刷新）：数据在缓冲区中积累到一定量后才会写入目标。这种模式适用于文件写入等操作，可以减少写入次数，提高性能，但在缓冲区未满时数据不会立即显示。这些模式可以根据具体需求来调整，以平衡性能和实时性。

也可以自定义刷新策略

以上是一般策略，存在特殊情况：1.强制刷新 2.进程退出的时候，一般都会进行刷新缓冲区

二、样例展示

说了这么多我们写一段代码来看看吧，虽然不能直接看到缓冲区，但是可以帮助我们加深对其的理解。

首先我们来对这一段代码解析一下，printf我们很熟悉了，就是向显示器进行打印，fprintf向stdout进行打印，也就是显示器，fputs也是如此，write在上篇文章已经给大家说过了，这里就不过多赘述了，接下来我们看看结果。

这里输出没什么特别的，接下来我们来改改代码。

这里对我们的输出做一个重定向的工作，同时在代码的最后我们fork()一下。可能有人会说了，欸这有什么区别吗，无非就是刚刚的输出被冲定向到了文件中而已，那么接下来让我们看看结果吧。

先说现象，原先的输出都有内容也没变，但是呢，次数变多了，且还有一件奇怪的事情，唯独write写入的那份没变多，这是为什么呢？且看下文。

三、样例分析

在上文我有说过缓冲区的刷新方式，这里补充一点小细节，同时对案例进行分析。

当我们直接向显示器打印的时候，显示器文件的刷新方式是行刷新！而且你的代码输出的所有字符串，在\n,fork()之前，数据全部已经被刷新，包括systemcall。
而当重定向到test.txt，本质是向磁盘文件中写入（不是显示了哦），我们系统对于数据的刷新方式已经由行刷新变成了全缓冲。
全缓冲意味着缓冲区变大，实际写入的简单数据，不足以把缓冲区写满，fork执行的时候，数据依旧在缓冲区中！
在这里我们所谈的"缓冲区"，和操作系统是没有关系的，只能和C语言有关。也就是说，这里我们所谈的主要是语言级别的缓冲区（用户级缓冲区）。
C/C++提供的缓冲区，里面一定保存的是用户的数据，属于当前进程在运行时自己的数据。如果我们把数据交给了OS，这个数据就属于OS，不属于当前进程了。
当进程退出的时候，一般要进行刷新缓冲区，即便你的数据没有满足刷新条件 --- 这个行为属于清空或者"写入操作" --- 我们知道任意一个进程在退出的时候，要刷新缓冲区，就要发生写时拷贝，所以fork()虽然并没有调用前面我们所说的函数，但其和父进程指向统一块缓冲区，退出发生写时拷贝，所以就有两份结果。
而我们的write是系统调用，也就是说write没有使用C的缓冲区，其数据会直接写入到到操作系统中！不属于进程了，就不会发生写时拷贝。
其实我们的文件也是需要有缓冲区的，这是内核级别的缓冲区，我们的write系统调用可以理解为直接向文件缓冲区进行写入。这里我们重新再理解一下刷新，从C缓冲区写入OS（文件缓冲区）这个工作叫做刷新。

谈了这么久的缓冲区，我们要怎么去看看这个缓冲区到底在哪呢？任何情况下，我们输入输出的时候，都要由一个FILE，FILE是一个结构体，FILE里面包含了fd，同时包含一个缓冲区。这里大家可以去看看源码，加深加深自己的理解。最后用一张图总结一下这些知识。