在 windows 上,我们可以看到我们的电脑,是由很多不同图标的设备组成的。每个不同的设备,都有不同的图标,双击后会有不同的菜单。这非常直观。但是作为程序员,我们却希望所有的电脑设备,都能用类似的一种方法来操作,而不希望换一种设备就是一种编程方法。所以,对于 C 语言来说,会把很多设备都抽象为“文件”:键盘是文件、屏幕是文件、打印机是文件、磁盘上的信息也是文件……
我们可以通过一个简单的程序,来看看键盘和屏幕是怎么被抽象成文件来使用的。
#include <stdio.h>
int main()
{
char str[5] = {0};
fscanf(stdin, "%s", str);
fprintf(stdout, "Hello, World!\n%s\n", str);
}
这个程序一运行,就会停住,然后显示一个光标,如果你输入了字符 abc 然后回车。你的屏幕上就会显示:
Hello, World!
abc
在这个程序里,我们看到一个有点熟悉的函数 fprintf() ,这和之前我们在屏幕上打印数据的 printf() 用法几乎一样,只不过需要在第一个参数那里,传入一个 FILE* 类型的变量。我们这里传入的是 stdout,意思是“标准输出”——一般程序的标准输出,就是屏幕了。
另外,这个程序里面还有一个函数,和 fprintf() 是一对儿的,叫 fscanf(),这个函数的功能是从文件中,按格式读取内容到变量里面。这个“格式”的写法,和我们之前的 printf() 的写法一模一样。fscanf() 的第一个参数就是读取的文件,这个文件传入的是 stdin,意思是“标准输入”——也就是键盘了。
上面这个程序,编译的时候会有个报警:fscanf() 是被弃用的,应该用 fscanf_s() 来代替。其原因之前讲过,由于读取文件输入的内容,是可能超过参数 str 的内存长度的,那么超过的部分,有可能会覆盖掉栈内存中非常危险的“返回程序地址”部分,从而导致安全漏洞。这种漏洞是黑客们最常见的入侵门路。而 fscanf_s() 可以把每个指针变量,都增加一个新的参数,表示最多只读入多少个字节,这样就不会有覆盖掉危险内存地址的风险了。譬如我们这个程序可以写为:
fscanf_s(stdin, "%s", str, 5); // 最多读入 5 个字节的数据到 str 中
在一般的 C 程序启动的时候,会自动“打开”三个文件,分别是 stdin, stdout, stderr,这三个文件我们可以直接用。stderr 是标准错误的意思,用来输出程序的错误信息的,有些操作系统会收集这个“文件”的内容作为日志。这三个文件,都不是那种常见意义上的磁盘文件,所以你不需要去寻找到底文件名是啥,存在哪里了。在 Linux 上,stdin/stdout/stderr 常常被重定向到具体的文件,或者通过“管道”把两个程序的 stdout 和 stdin 连接起来,这样两个程序就可以直接通信了。以前我写 CGI 程序的时候,就可以通过 Apache 网络服务器的 stdout,把用户浏览器发送的 HTTP 请求报文,传给我们自己写的 CGI 程序的 stdin;通过我们代码的解析和处理后,把 HTTP 响应报文,譬如 HTML 结果,通过 stdout 发到 Apache 进程的 stdin,最终通过网络发到用户的浏览器上,从而实现能通过浏览器执行的程序。 需要注意的是,如果我们写了一个读取 stdin 的带漏洞的程序,而这个程序被用来作为 CGI 进程,那么黑客就有可能通过网络入侵你的服务器了。
相对于 stdin/stdout,我们当然可以操作传统的文件。我们可以写个例子实现一个简单的文件复制。
#include <stdio.h>
int main()
{
char *src_file = "a.txt";
char *dst_file = "b.txt";
char buf[1024] = {0};
FILE *sf = fopen(src_file, "r");
int len = fread(buf, 1, 1024, sf);
fclose(sf);
FILE *df = fopen(dst_file, "w");
len = fwrite(buf, 1, len, df);
fclose(df);
printf("Copy file size: %d bytes\n", len);
}
然后我们在这个程序的所在目录,存下一个 a.txt 文件,里面写上 Hello, World! 。在运行这个程序之后,屏幕显示:
同时在同一个目录,会生成一个叫 b.txt 的文件,打开之后,里面就是 Hello, World! 。
上面这个程序,用了一个叫 fopen() 的函数用来打开文件,第一个参数是文件路径,第二个参数“读写模式”。这个函数编译的时候会报警说不安全,但是我们用作例子是可以的。我们的程序以“读”模式打开了 a.txt 后,把文件内容读出,放到内存(变量 buf)中。由于我们设置的 buf 数组长度是 1024 个字节,所以这个文件最多只能被拷贝出 1024 个字节的内容。
然后我们用“写”模式打开了 b.txt 文件,把 buf 的内容写入进去。两个打开的文件指针对象 sf df,都需要调用 fclose() 来关闭,否则也是一种资源泄漏。操作系统对于一个进程最多打开的文件数量是有限制的,打开太多也会额外消耗内存。所以用完了文件指针,需要关闭掉。
读者可以自己考虑一下改造这个程序,譬如用命令行参数输入要拷贝的文件路径和要生成的文件路径,以及处理超过 1024 字节的内容,让不管多大的文件,都可以被拷贝成功。
当我们使用 C 语言来操作电脑的外部设备,不管是网卡、打印机还是键盘、屏幕,都可以用同一种方式来进行读取、写入,这就是按照文件操作。事实上上面的程序,我们用 fscanf()/fprintf() 是一样可以完成的,只不过限制了拷贝的文件只能是文本文件而已。把外部设备作为“文件”来处理,不止是 C 语言的风格,其他的编程语言也是类似的。这些文件操作的功能,是操作系统提供的,所以不管什么语言都是这样处理,不过用 C 语言可以非常简单的用 char 数组来作为任何数据的缓冲区,对于编写底层的外部设备操作程序,是特别方便,而且性能更好的。
整个系列写到这里终于要收尾了。看着每一篇的阅读量呈等差数列下降,心里还是有点难过的,不过这也是我自己对于这门知识的一次总结。回想起自己学习 C 语言的过程,从第一次拿起教程,到真正的写出能实用的程序,期间足足过去了十年。这十年间,我写了大量的 PHP/JAVA 等各种语言的代码。而 C 语言一直都不能如同这些语言一样容易上手,我觉得最核心的原因有三:
这门语言没有很多功能的标准库,所以看起来好像并不能做什么事情,所以让人学习的兴趣比起其他语言要小的多
由于缺乏模块管理等工程设计,让编译链接过程显得非常复杂,而且 C 语言教程往往又不包含这些,所以真正要实用起来,会碰到大量的问题,显得非常困难
大部分的教程习惯于从抽象的数据类型、数组等角度去介绍语言的功能,没有把“操作内存”作为最核心的用法来介绍,导致指针、堆内存、栈内存非常让人费解,加上动辄 core dump 的特性,显得这门语言非常难学。 在绕了无数的弯路后,我现在觉得 C 语言并不是一门复杂的语言,而且有很多的语法完全可以用另外一种写法,一样可以成立,譬如数组和指针的操作很多就是等价的。只是规矩越少的东西,灵活性越大,要掌握的好也会显得越困难,如同围棋比象棋更“复杂”一样。因此我希望把这些简单但重要的知识记录下来,以便帮助到愿意踏上这条看似困难的学习之路的同行者。
评论区
共 5 条评论热门最新