代码收藏家技术教程 2023-08-30

深入理解Linux基础IO操作

1、关于C语言中的文件操作符

1.1 C语言中写文件

1.2 C语言读文件

1.3 往显示器上输出信息

1.4 stdin & stdout & stderr

1.5 打开文件的方式

2、系统文件IO

2.1 写操作文件

2.2 读操作文件、

2.3 open

open函数的返回值

2.4 文件描述符

0 & 1 & 2

文件描述符的分配规则

2.5 重定向和dup2

3、缓冲区相关

4、理解文件系统

4.1 inode

4.2 理解硬链接

4.3 软链接

5、动态库和静态库

静态库和动态库

a. 生成静态库

b. 生成动态库

1、关于C语言中的文件操作符

1.1 C语言中写文件

#include <stdio.h> 
#include <string.h>
int main() 
{
    FILE *fp = fopen("myfile", "w"); 
    if(!fp){
        printf("fopen error!\n"); 
    }
    const char *msg = "hello ltx!\n"; 
    int count = 5;
    while(count--){
        fwrite(msg, strlen(msg), 1, fp); 
    }
    fclose(fp); 
    return 0;
}

1.2 C语言读文件

#include <stdio.h> 
#include <string.h>
int main() 
{
    FILE *fp = fopen("myfile", "r"); 
    if(!fp){
        printf("fopen error!\n"); 
    }
    char buf[1024];
    const char *msg = "hello bit!\n";
    while(1){
        ssize_t s = fread(buf, 1, strlen(msg), fp);
        if(s > 0){ 
            buf[s] = 0; 
            printf("%s", buf); 
        }
        if(feof(fp)){ 
            break; 
        }
    }
    fclose(fp); 
    return 0; 
}

1.3 往显示器上输出信息

#include <stdio.h> 
#include <string.h>
int main() 
{
    const char *msg = "hello fwrite\n"; 
    fwrite(msg, strlen(msg), 1, stdout);
    printf("hello printf\n");
    fprintf(stdout, "hello fprintf\n"); 
    return 0;
}

1.4 stdin & stdout & stderr

C默认会打开三个输入输出流，分别是stdin, stdout, stderr

仔细观察发现，这三个流的类型都是FILE*, fopen返回值类型，文件指针

1.5 打开文件的方式

r Open text file for reading.
The stream is positioned at the beginning of the file.

r+ Open for reading and writing.
The stream is positioned at the beginning of the file.

w Truncate(缩短) file to zero length or create text file for writing.
The stream is positioned at the beginning of the file.

w+ Open for reading and writing. The file is created if it does not exist, otherwise it is truncated.
The stream is positioned at the beginning of the file.

       a      Open for appending (writing at end of file).
              The file is created if it does not exist.
              The stream is positioned at the end of the file.

       a+   Open for reading and appending (writing at end of file).
              The file is created if it does not exist. The initial file position
              for reading is at the beginning of the file,
              but output is always appended to the end of the file.

以上就是C语言中的一些文件操作

2、系统文件IO

操作文件，除了上述C接口（当然，C++也有接口，其他语言也有），我们还可以采用系统接口来进行文件访问，当然，其实其他语言在底层在一定程度上都可以说成时对系统操作的一些封装。

2.1 写操作文件

#include <stdio.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include <unistd.h> 
#include <string.h>
int main() 
{
    umask(0);
    int fd = open("myfile", O_WRONLY|O_CREAT, 0644); 
    if(fd < 0){
        perror("open"); 
        return 1; 
    }
    int count = 5;
    const char *msg = "hello ltx!\n"; 
    int len = strlen(msg);
    while(count--){
        write(fd, msg, len);
        //fd: 文件操作符， msg：缓冲区首地址， len: 本次读取，期望写入多少个字节的数据。    
        //返回值：实际写了多少字节数据
    }
    close(fd); 
    return 0; 
}

2.2 读操作文件、

#include <stdio.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include <unistd.h> 
#include <string.h>
int main() 
{
    int fd = open("myfile", O_RDONLY); 
    if(fd < 0){
        perror("open"); 
        return 1; 
    }
    char buf[1024];
    while(1){
        ssize_t s = read(fd, buf, strlen(msg));//类比write 
        if(s > 0){
            printf("%s", buf); 
        }else{
            break; 
        }
    }
    close(fd); 
    return 0; 
}

2.3 open

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

int open(const char *pathname, int flags);

int open(const char *pathname, int flags, mode_t mode);

pathname: 要打开或创建的目标文件

flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。

参数:

O_RDONLY: 只读打开

O_WRONLY: 只写打开

O_RDWR : 读，写打开

上面这三个常量，必须指定一个且只能指定一个

O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限

O_APPEND: 追加写

返回值

成功：新打开的文件描述符

失败：-1

如目标文件不存在，需要open创建，则第三个参数表示创建文件的默认权限,否则，使用两个参数的open。

open函数的返回值

open函数的返回值是一个叫做文件描述符的东西，这个东西具体是什么呢，下面咱们展开讲讲：

首先，我们得知道两个概念：一个是库函数、另一个是系统调用。

什么是库函数，我们刚刚使用的C语言文件操作的相关函数，就叫做库函数。

什么是系统调用呢：系统调用，其实也简单，他本质也是一些函数，但是是操作系统提供的。因为呢在一个操作系统的底层，他需要和一些驱动硬件的驱动做交互，也就是管理整个系统，不管是硬件，还是一些硬件驱动的软件，那些层面的功能十分的繁杂繁琐，要是这样暴露给开发者，那样的话，开发的成本会大大提升，所以呢在设计之初呢，人们选择对操作系统的底层做封装，不暴露下层的细节，对上层提供可操作的接口，这些接口就是系统调用，用来和底层交互。这就是系统调用。

了解万这些，我们再来看看open函数的返回值，

既然open是操作系统对上层提供的一个系统调用，那么他的返回值，就一定和它内部的实现，也可以说是和操作系统对打开文件操作的实现有关系。接下来我们就说说操作系统是怎么对以打开文件做管理的：

打开文件这个操作实际上就是将文件内容再加到内存，以便CPU进行操作，就是内存和磁盘的交互，文件从磁盘上被加载到内存，那操作系统是如何管理内存中的文件的呢？

我们在之前的文章中提到过一个PCB，它本质上就是一个数据结构，用来管理内存中的进程的，那文件也是被某个进程打开的，是否也被他管理呢。是的，是这样的。

用Linux做举例，Linux底层对PCB的实现，使用一个叫 task_struct 的结构体实现，在task_struct 这个结构体中，有一个叫 files 的结构体指针，指向一个 files 的结构体，这个 files 结构体中有一个指针数组，这些指针数组中的指针，用以指向一个个被打开的文件。这个指针数组中的下标，其实就是open函数的返回值，这样子说就很好理解了，而这个open函数的返回值，也就是指针数组的下标，就叫做文件描述符，

2.4 文件描述符

接下来我们再详细分析一下这个文件描述符。

通过上面的讲述，我们知道了，文件描述符就是一个数组的下标，也就是一个整数，那么我们打开第一个文件的时候，open的返回值是不是就是0呢，接着是1，2，3……我们来写代码验证一下，

#include <iostream>

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>

using namespace std;

int main() {
    size_t fd1 = open("test01.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
    size_t fd2 = open("test02.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
    size_t fd3 = open("test03.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);

    cout << "fd1:" << fd1 << endl;
    cout << "fd2:" << fd2 << endl;
    cout << "fd3:" << fd3 << endl;

    close(fd1);
    close(fd2);
    close(fd3);

    return 0;
}

运行结果：

这里显示运行结果和我们想的并不一样，这是为什么，为什么从3开始，那么0，1，2去哪里了，接下来我们看看：

人们都说在Linux中，一切皆文件，从哪里体现，在这里就能窥探到一些，

在一个进程创建的时候，操作系统就会默认把标准输入（对应键盘），标准输出（对应显示器），标准错误（对应显示器），这三个打开文件加载到 files_struct 这个结构体中,这三个分别会将文件描述符为0 ，1，2的三个位置占据，所以我们在创建文件的时候，就会从3这个位置开始分配文件描述符。

0 & 1 & 2

Linux进程默认情况下会有3个缺省打开的文件描述符，分别是标准输入0，标准输出1，标准错误2.

0,1,2对应的物理设备一般是：键盘，显示器，显示器

所以输入输出还可以采用如下方式：

#include <stdio.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include <string.h>
int main() 
{
    char buf[1024];
    ssize_t s = read(0, buf, sizeof(buf)); 
    if(s > 0){
        buf[s] = 0;
        write(1, buf, strlen(buf)); 
        write(2, buf, strlen(buf)); 
    }
    return 0; 
}

而现在知道，文件描述符就是从0开始的小整数。当我们打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了ﬁle结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。每个进程都有一个指针*ﬁles, 指向一张表ﬁles_struct,该表最重要的部分就是包涵一个指针数组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。所以，只要拿着文件描述符，就可以找到对应的文件

文件描述符的分配规则

在一个进程启动的时候，文件描述符为0，1，2的三个位置已经被占了，如果我们将1或者0中对应的文件关闭，这个时候在打开文件，这个文件的文件描述符还会是3嘛，我们来验证一下：

#include <iostream>

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>

using namespace std;

int main() {
    
    close(1);
    size_t fd1 = open("test01.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);

    cout << "fd1:" << fd1 << endl;
    
    close(fd1);
    return 0;
}

运行结果：

我们发现这里啥也看不到，这是为啥，因为我们关掉了文件描述符为1的文件，正是标准输出，那我们，打开这个文件，看看里面有没有内容

我们发现，原本该输出到命令行的内容，被写入到了这个文件中，而且显示，被打开的这个文件的文件描述符是1，而不是3，所以这里就说明了，文件描述符是从0开始，找到第一个空的，这样子进行分配的，

细看上面这个例子，这不就是重定向嘛，哈哈哈哈，没错，其实linux使用 > 进行重定向底层的实现原理就和这个差不多，下面我们顺便看看重定向

2.5 重定向和dup2

通过上面那个例子，我们发现本该输出到命令行上的内容，被写入到了test01.txt这个文件中了，这种现象就叫做重定向，

上面那种实现，就是重定向的实现的一种，将系统的标准输出关闭，然后打开文件，使用系统打印函数，就可以将内容写入到文件中，

另外呢，系统给我们提供了一个系统调用dup2，其实dup函数有好几个，但是最常用的就是dup2，

#include <unistd.h>
int dup2(int oldfd, int newfd);

注意：这里的oldfd和newfd各自所指的是什么，比如我们现在要将本该输出到命令行上的内容重定向到test01中，那么oldfd就是test01的文件描述符，newfd就是标准输出1，它的本质就是将oldfd中存储的指针，拷贝并覆盖newfd指针所在数组指针的位置，

#include <iostream>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>

using namespace std;

int main() {
    size_t fd = open("test01.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
    if (fd < 0) {
        perror("open");
        return 1;
    }
    dup2(fd, 1);
    cout << "hello ltx!" << endl;
    close(fd);
    return 0;
}

运行结果：

3、缓冲区相关

我们看一段代码：

#include <stdio.h> 
#include <string.h>
int main() 
{
    const char *msg0="hello printf\n";
    const char *msg1="hello fwrite\n";
    const char *msg2="hello write\n";
    printf("%s", msg0);
    fwrite(msg1, strlen(msg0), 1, stdout); 
    write(1, msg2, strlen(msg2));
    fork(); 
    return 0;
}

运行结果：

//hello printf
//hello fwrite
//hello write

但如果对进程实现输出重定向呢？./hello > file 我们发现结果变成了：

//hello write
//hello printf
//hello fwrite
//hello printf
//hello fwrite

我们发现printf和fwrite都输出了两次，write输出了一次，这是为什么？那肯定就和fork有关了，

一般C库函数写入文件时是全缓冲的，而写入显示器是行缓冲。printf和fwrite库函数会自带缓冲区库，当发生重定向到普通文件时，数据的缓冲方式由行缓冲变成了全缓冲。而我们放在缓冲区中的数据，就不会被立即刷新，甚至fork之后但是进程退出之后，会统一刷新，写入文件当中。但是fork的时候，父子数据会发生写时拷贝，所以当你父进程准备刷新的时候，子进程也就有了同样的一份数据，随即产生两份数据。

write没有变化，说明没有所谓的缓冲。

4、理解文件系统

我们使用ls -l的时候看到的除了看到文件名，还看到了文件元数据。

每行包含7列：

模式

硬链接数

文件所有者

组

大小

最后修改时间

文件名

ls -l读取存储在磁盘上的文件信息，然后显示出来

其实这个信息除了通过这种方式来读取，还有一个stat命令能够看到更多信息

上面的执行结果有几个信息需要解释清楚

4.1 inode

为了能解释清楚inode我们先简单了解一下文件系统

Linux ext2文件系统，上图为磁盘文件系统图（内核内存映像肯定有所不同），磁盘是典型的块设备，硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的，并且不可以更改。例如mke2fs的-b选项可以设定block大小为1024、2048或4096字节。而上图中启动块（Boot Block）的大小是确定的，

Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。政府管理各区的例子

超级块（Super Block）：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了

GDT，Group Descriptor Table：块组描述符，描述块组属性信息，有兴趣的同学可以在了解一下

块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用

inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。

i节点表:存放文件属性如文件大小，所有者，最近修改时间等

数据区：存放文件内容

创建一个新文件主要有一下4个操作：

1. 存储属性

内核先找到一个空闲的i节点（这里是263466）。内核把文件信息记录到其中。

2. 存储数据

该文件需要存储在三个磁盘块，内核找到了三个空闲块：300,500，800。将内核缓冲区的第一块数据复制到300，下一块复制到500，以此类推。

3. 记录分配情况

文件内容按顺序300,500,800存放。内核在inode上的磁盘分布区记录了上述块列表。

4. 添加文件名到目录

新的文件名abc。linux如何在当前的目录中记录这个文件？内核将入口（263466，abc）添加到目录文件。文件名和inode之间的对应关系将文件名和文件的内容及属性连接起来。

4.2 理解硬链接

我们看到，真正找到磁盘上文件的并不是文件名，而是inode。其实在linux中可以让多个文件名对应于同一个inode。

[root@localhost linux]# touch abc

[root@localhost linux]# ln abc def

[root@localhost linux]# ls -1i

abc def 263466 abc 263466 def

abc和def的链接状态完全相同，他们被称为指向文件的硬链接。内核记录了这个连接数，inode263466 的硬连接数为2。

我们在删除文件时干了两件事情：

1.在目录中将对应的记录删除，

2.将硬连接数-1，如果为0，则将对应的磁盘释放。

4.3 软链接

硬链接是通过inode引用另外一个文件，软链接是通过名字引用另外一个文件，在shell中的做法

我们发现软链接的文件有自己的inode

5、动态库和静态库

静态库和动态库

静态库（.a）：程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候将不再需要静态库

动态库（.so）：程序在运行的时候才去链接动态库的代码，多个程序共享使用库的代码。

一个与动态库链接的可执行文件仅仅包含它用到的函数入口地址的一个表，而不是外部函数所在目标文件的整个机器码，在可执行文件开始运行以前，外部函数的机器码由操作系统从磁盘上的该动态库中复制到内存中，这个过程称为动态链接（dynamic linking）

动态库可以在多个程序间共享，所以动态链接使得可执行文件更小，节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用，节省了内存和磁盘空间。

a. 生成静态库

[root@localhost linux]$ ls
add.c  add.h  main.c  sub.c  sub.h
[root@localhost linux]$ gcc -c add.c -o add.o 
[root@localhost linux]$ gcc -c sub.c -o sub.o
#生成静态库
[root@localhost linux]$ ar -rc libmymath.a add.o sub.o 
#ar是gnu归档工具，rc表示(replace and create)
#查看静态库中的目录列表
[root@localhost linux]$ ar -tv libmymath.a 
rw-r--r-- 0/0   1240 Sep 15 16:53 2017 add.o 
rw-r--r-- 0/0   1240 Sep 15 16:53 2017 sub.o 
#t:列出静态库中的文件
#v:verbose 详细信息
[root@localhost linux]$ gcc main.c -L. -lmymath 
#-L 指定库路径
#-l 指定库名
#测试目标文件生成后，静态库删掉，程序照样可以运行。

库搜索路径

从左到右搜索-L指定的目录。

由环境变量指定的目录（LIBRARY_PATH）

由系统指定的目录

/usr/lib

/usr/local/lib

b. 生成动态库

shared: 表示生成共享库格式

fPIC：产生位置无关码(position independent code)

库名规则：libxxx.so

[root@localhost linux]$ ls
add.c  add.h  main.c  sub.c  sub.h
[root@localhost linux]$ gcc -fPIC -c add.c -o add.o 
[root@localhost linux]$ gcc -fPIC -c sub.c -o sub.o
#生成动态库
[root@localhost linux]$ gcc -shared -o libmymath.so *.o 
[root@localhost linux]$ gcc main.c -L. -lmymath 
#-L 指定库路径
#-l 指定库名

但是生成动态库之后，运行不了，还是会报错，

动态链接器，在它内部有一个默认的搜索顺序，按照优先级从高到低的顺序是：

1.可执行文件内部的 DT_RPATH 段

2.系统的环境变量 LD_LIBRARY_PATH

3.系统动态库的缓存文件 /etc/ld.so.cache

4.存储动态库 / 静态库的系统目录 /lib/, /usr/lib 等

按照以上四个顺序，依次搜索，找到之后结束遍历，最终还是没找到的话，动态连接器就会提示动态库找不到的错误信息。

这个时候，就需要把我们的动态库的路径配置到环境变量中，或者配置到系统配置文件中，，通常我们的解决办法：

1、拷贝.so文件到系统共享库路径下, 一般指/usr/lib

2、更改：LD_LIBRARY_PATH

export LD_LIBRARY_PATH = #$LD_LIBRARY_PATH + "路径"

3、ldconﬁg 配置/etc/ld.so.conf.d/，ldconﬁg更新