在上面的例子中,我们处理的数据都是一个定义好了的变量内容。一般我们实际工作中,往往是处理一些会变化的数据。譬如处理用户的输入、数据文件内容等等。在处理这种变化的数据时,指针成为非常关键的工具。下面举一个例子,用来处理“命令行”参数参入。
命令行参数:在以命令行启动的程序里,是可以读取到启动程序的后续输入参数的。譬如我们前面用的编译命令 clang,我们就把要编译的文件名以“命令行参数”的形式输入到程序里面的
为了获得命令行参数,我们可以通过 main() 函数的参数来获得。之前的例子代码中,我们都忽略了命令行参数,所以使用的最简单的函数形式。下面是例子代码:
#include <stdio.h>
int main(int argc, char **argv)
{
printf("argv: %p\n", argv);
for (int i = 0; i < argc; i++)
{
printf("argv[%d]: %s %p\n", i, *(argv + i), *(argv + i));
}
}
> .\arg.exe ab cde fghi
argv: 0000025BE4E27A20
argv[0]: C:\Users\Admin\Documents\learningC\arg.exe 0000025BE4E27A48
argv[1]: ab 0000025BE4E27A73
argv[2]: cde 0000025BE4E27A76
argv[3]: fghi 0000025BE4E27A7A
上面的代码中,我们修改了 main() 的参数,其中 int argc 表示会有几个参数, char **argv 指针参数指向了存放所有命令行参数的内存。然后把命令行参数的内容,以及存放这些内容的地址(以 16 进制数)都打印了出来。
命令行参数的第一个参数是启动程序自己,所以 argc 最少是 1
存放命令行参数的内存块,需要存放多个字符串,所以需要多个字符指针,而所有的这些字符指针,又需要按照参数的顺序存放起来,所以就需要一个“指向字符指针的指针”变量。——有人会把这种关系描述成一个“字符的二维数组”,对于每个字符,我们可以通过 argv[i][j] 的方式读取。但是我认为“指针的指针”比较好理解,对于指针来说,它可以被看成“指针的指针的指针……的指针”,这里有多少层嵌套,变量声明的地方就有多个 * 号。
上图还有一个特别值得注意的地方,就是每个 argv[i] 的值,刚好相差的就是命令行参数的参数加一(末尾有个\0),譬如 argv[1] 和 argv[2] 这两个指针的内容分别是 0000025BE4E27A73 和 0000025BE4E27A76 ,这两个地址相差 3,刚好是 ab\0 这个命令行参数 "C 字符串"的内存长度。也就说字符串指针每次增加一,指针变量中的数值也增加一,简单的就好像 1 + 1 = 2 一样。不过这可是 char 指针的特例。下面我们用一个例子,来看看指针运算中的 1 + 1 != 1 。
之前我们用的例子都是字符数组 char*,其实任何类型都可以构造数组,譬如 int。
#include <stdio.h>
int main()
{
int int_arr[3] = {1, 2, 3};
int *p = int_arr;
int *last_p = p;
unsigned long long offset = 0;
for (int i = 0; i < 3; i++)
{
if (i != 0)
{
offset = (unsigned long long)p - (unsigned long long)last_p;
last_p = p;
}
printf("int arr[%d]: %d, addr: %p, offset: %llu\n", i, *p, p, offset);
p++;
}
}
int arr[0]: 1, addr: 0000009F1D6FFB68, offset: 0
int arr[1]: 2, addr: 0000009F1D6FFB6C, offset: 4
int arr[2]: 3, addr: 0000009F1D6FFB70, offset: 4
上面这段代码,主要需要注意的是,把 int_arr 这个数组的里面,每个元素的地址打印了出来。在上面的代码 offset = (unsigned long long)p - (unsigned long long)last_p 中,我强行把 p 和 last_p 从整数指针类型,转换成无符号整数计算,这样就可以获得其内部数值的真正的差。如果从地址的数字看,每次 p++ 运行之后,数值实际上是增加了 4,而不是 1。实际上,每个指针变量,如果你对其进行数学运算,譬如加法或者减法,实际上都是以指针的类型,所代表的内存长度,作为“步长”进行运算的,而并不是简单的数学运算。
譬如对于整数指针 int* p 来说,每次用 p = p + 1 增加的值,实际上增加了 1*4 ,因为 int 整数类型的长度是 4。之所以字符指针每次加一,地址也是加了一,完全是因为字符 char 类型的长度是 1 导致的。
减法也是类似的,譬如上面例程中的代码,如果 offset 的计算改成:
offset = (unsigned long long)(p - last_p);
那么 offset 的值就会是 1,因为作为两个整数指针变量 p 和 last_p,两者做减法得出的答案,也是结果的有几个 4 的倍数作为结果的。
上面我们看了 int 指针的计算,按 int 的长度作为单位。那么如果是 int** 这种“指针的指针”类型,计算的长度又是什么呢?其实只要是指针的指针,不管有多少级,不管最后的类型是 int 还是 char,都按“指针”这种类型算,“指针”的长度统一是 8 个字节(64 位系统)。
前面我们分析过,C 语言的变量是内存,数组就是内存块,指针是操作内存块的工具。所以我们完全可以对内存进行最底层的操作,譬如复制或者改写,而不必真的知道内存里面存的具体是什么。最常见的就是用 char* 字节指针来操作一切数据。我们可以做一个内存复制的例程,来表现 C 语言常常怎么处理真实的数据:我们经常需要把文件内容的内存数据复制出来处理,或者把一整段数据写入到网络端口的缓冲区去。
#include <stdio.h>
void copy(char *src, char *dst, int len)
{
for (int i = 0; i < len; i++)
{
dst[i] = src[i];
}
}
int main()
{
char *str = "abc";
char dst[4] = {0};
copy(str, dst, 4);
printf("dst: %s\n", dst);
int int_arr[3] = {1, 2, 3};
int dst_int[3] = {0};
copy((char *)int_arr, (char *)dst_int, 3 * sizeof(int));
for (int i = 0; i < 3; i++)
{
printf("dst_int[%d]: %d\n", i, dst_int[i]);
}
}
程序里面出现了 sizeof() 关键字,这个关键字作用是返回某个变量或者类型的长度。这里的 sizeof(int) 返回值为 4
dst: abc
dst_int[0]: 1
dst_int[1]: 2
dst_int[2]: 3
在这个程序里面,我们写了一个 copy() 函数,这个函数以 char 数组的形式,逐个字节对目标数组进行赋值。不管我们传入的是字符数组,还是整数数组(需要把指针类型强行转换),这个函数都会严格的把内存的数据复制过去。在很多处理真实数据的程序里,都是这样通过 char 指针,一个个字节进行处理的。
上面这个 copy() 函数,隐藏着一个经典的 bug,这也是一些公司面试题里面常见的一条。这个 bug 的原因是,如果 src 和 dst 两个缓冲区的范围有互相覆盖,按照上面的写法,就会有问题了。譬如 src + 2 等于 dst 的地址的情况下(更接近于把数据往后移动一段举例),复制就会丢失一部分数据。接近上面这个 bug 的思路,就是判断一下如果可能出现两块内存有重叠区域,就选择从尾往头进行复制,而不是从头往尾复制。在标准库里面,memcpy() 函数就有缓冲区重叠的问题,但是另外一个 memmove() 就没有这个问题。
本篇我们通过命令行参数,处理过一些变长的内存。实际上 C 语言可以支持我们随意创造变长的内容,我们的程序可以在运行时动态的改变要占用的内存大小。下一篇介绍 C 语言如何自由的控制内存。
评论区
共 5 条评论热门最新