编者按:本文是美国著名科幻小说作家特德·姜(《商人和炼金术师之门》《呼吸》《前路迢迢》《软件体的生命周期》)对于Chatgpt的评论性文章,原载于《New Yorker》2023年2月9日。本篇文章的翻译大部分依靠Chatgpt完成,编者所起的作用主要是润色。 2013年,德国一家建筑公司的工人注意到他们的施乐复印机有些奇怪:当他们复印一座房子的平面图时,复印件与原件有细微但十分重要的差别。在原始的平面图中,每个房间都附带一个说明其面积的矩形:这些房间的面积分别为14.13、21.11和17.42平方米。然而,在复印件中,所有三个房间都标记为面积为14.13平方米。于是该公司联系了计算机科学家David Kriesel来调查这个看似难以置信的结果。他们之所以需要一位计算机科学家,而不是一个打印机维修员的原因是,现代的施乐复印机早已不再使用在1960年代流行的物理静电复印(Xerographic Process)过程。相反,如今它将文件先进行数字化扫描,然后打印出生成的图像文件。如果进一步考虑如下事实,即打印进程中几乎每个数字图像文件还都要被压缩以节省空间,这个谜团的答案便开始显现出来。
压缩文件通常需要两个步骤:首先是编码——将文件转换为更紧凑的格式,然后是解码——通过该过程将编码的文件恢复为原始格式。如果恢复的文件与原始文件完全相同,则将压缩过程描述为无损(loseless)压缩,即编码解码过程没有丢失任何信息。相比之下,如果恢复的文件只是原始文件的近似值,我们则将该压缩描述为有损(lossy)压缩——某些信息已被丢弃且无法恢复。无损压缩通常用于文本文件和计算机程序,因为这些领域中一个微小的错误字符都可能导致灾难性后果。而有损压缩通常用于照片、音频和视频等情况,其中绝对精度并不重要。大多数情况下,我们大部分人不会注意到图片、歌曲或电影是否完美再现。只有在文件被压缩得非常厉害时,我们才会感知到保真度的损失:在这些情况下,我们会注意到被称为压缩伪影的现象:最小的JPEG和MPEG图像的模糊不清,或低码率MP3的尖锐声音。
施乐复印机使用一种名为jbig2的有损压缩格式,专为黑白图像设计。为了节省空间,复印机在图像中识别相似的区域,并为它们存储一份副本;在文件解压缩(即解码)时,它重复使用该副本来重构图像。结果,复印机判断说明房间区域的数字标签足够相似,只需要存储其中一个标签“14.13”即可,并且在随后打印平面图时将其重复使用于三个房间。
施乐复印机使用有损压缩格式而不是无损压缩格式本身并不是一个问题。问题在于,复印机通过压缩在以一种微妙的方式篡改图像,这样的篡改还不是立即可识别的。如果复印机只是产生模糊的打印品,那么每个人都会知道它们不是原件的准确复制品。问题在于复印机生成了可读清晰但不正确的数字,这使得复制品看起来相当准确,但实际上并不是。 (2014年,施乐发布了一个修补程序来纠正这个问题。)
我认为施乐复印机的这件事值得一提,因为我们可以拿它来思考OpenAI的ChatGPT和其他类似的程序,即人工智能研究人员所谓的大型语言模型。复印机和大型语言模型之间的相似之处可能并不显而易见——但请考虑以下情景:假设你即将永远失去访问互联网的权利。为了应对这种情况,你计划创建一个压缩的Web文本副本,以便将其存储在私人服务器上。不幸的是,你的私人服务器只有所需空间的百分之一(也是相当庞大的容量);如果你想使所有内容存储在其中,就不能使用无损压缩算法。相反,你编写了一个有损算法用于识别文本中的统计规律,并将其存储在专门的文件格式中。由于你几乎拥有无限的计算能力来完成此任务,你的算法可以识别极其微妙的统计规律,从而使你实现了所需的100:1的压缩比。
(编者说明:假设有一段话是“我最喜欢吃的东西是红烧肉”,特德姜在这里所说的意思是,只需要有一个算法,当你给他提示“我最”和“肉”时,它能够生成中间的“喜欢吃的东西是红烧”,那么我们只需要在服务器里储存“我最”和“肉”即可,其他字符就可以通过省略的方式压缩掉)
现在,失去互联网访问也不那么可怕了;因为你已经将所有的网页信息存储在你的服务器上。唯一的问题是,因为文本已经被高度压缩,你不能通过搜索完全相同的内容来查找信息,因为你永远也无法获得完全匹配(存储的不是一比一的内容和文本)。为了解决这个问题,你创建了一个界面,接受以问题形式提出的查询,并通过回答来传达你服务器上存储的经压缩的要点信息。
我所描述的听起来很像ChatGPT,或者说大多数其他的大型语言模型。把ChatGPT看作是网络上所有文本的“模糊缩略图”。它保留了网络上的大部分信息,就像缩略图保留了高分辨率图像的大部分信息一样。但是,如果你正在寻找精确的位序列,你不会找到它;你所能得到的只是一个近似值。只不过在Chatgpt这里,这个近似值是以语法文本的形式呈现的,而ChatGPT创建的语法文本通常也是可以理解和接受的。所以你仍然在看一个模糊的缩略图,但这种模糊不会使整张图片看起来不够清晰。
这样的把Chatgpt看作是一种失真压缩的比喻不仅是一种理解ChatGPT如何运用不同词汇重组网络内容的方式,也是一种理解大型语言模型(如ChatGPT)容易出现“虚构”或是对事实问题做出毫无意义的回答的原因。这些虚构就是压缩留下的痕迹,但就像施乐复印机生成的错误标签一样,它们足够真实,真实到我们必须将它们与原始信息进行比较才可能真正发现其中的虚构和错误。实际上,当我们用如上方式(模糊的缩略图)思考它们时,这些虚构并不奇怪;如果一个压缩算法的设计是用压缩到1%的内容量去生成原始文本(解码/解压缩),我们应该可以想见它所生成的很大一部分内容都是虚构的。
为了让这个类比更容易理解,我们可以用有损压缩经常使用的一种技术——插值来进一步说明,所谓’插值’就是通过查看缺口两侧的内容来估计缺失的内容。(类似电视机如今的补帧技术)当图像程序显示一张照片并需要重建压缩过程中丢失的像素时,它会查看附近的像素并计算平均值。这就是我们要求ChatGPT 以《独立宣言》的风格描述在烘干机中丢失一只袜子时所做的事情:它在“词汇空间”中的两个点之间的位置生成了文本。(“在人类事务中,为了维护其清洁和秩序,有必要分离衣物与其伴侣……”)ChatGPT 擅长这种插值形式,以至于人们发现它很有趣:他们发现了一种“模糊”段落而不是照片的工具,因此一直在尝试使用它。
大型语言模型,如ChatGPT,常常被誉为人工智能的前沿。因此,将它们描述为有损文本压缩算法听起来可能会被认为是一种轻视,或者至少是一种贬低。我认为这种观点至少对人们倾向于人格化大型语言模型的倾向作了有力的纠正,但是压缩类比中还有另一个值得考虑的方面。
为了理解所提出的压缩和理解之间的关系,可以想象一下你有一个包含一百万个加减乘除示例的文本文件。虽然任何压缩算法都可以缩小这个文件的大小,但实现最大压缩比的方法可能是推导出算术原理,然后编写计算器程序的代码。使用计算器,你可以完美地重建文件中的所有一百万个示例,以及将来可能遇到的任何其他算术示例。同样的逻辑也适用于压缩Wikipedia的问题。如果压缩程序知道力等于质量乘以加速度,它在压缩物理学页面时可以丢弃很多单词,因为它将能够重建它们。同样地,程序对供需问题的了解越多,在压缩经济学页面时就能丢弃更多的单词,以此类推。
大型语言模型可以识别文本中的统计规律。分析网络文本将发现,“供应不足”这样的短语经常与“价格上涨”这样的短语相邻出现。一个聊天机器人如果结合了这种相关性,当被问及供应短缺的影响时,可能会回答价格上涨的答案。如果一个大型语言模型编译了大量的经济术语之间的相关性——以至于它可以对各种各样的问题提供合理的回答——我们应该说它实际上理解了经济理论吗?我认为并不行,其中一个原因是它们没有精确地重构原始文本——即它进行不了无损压缩。但是,它们的有损压缩是否表示出AI研究人员感兴趣的AI对文本内容的真正理解呢?
让我们回到算术的例子。如果你让GPT-3(ChatGPT构建的大型语言模型)相加或相减一对数字,当这些数字只有两位数时,它几乎总是给出正确答案。但是随着数字变得更大,它的准确性显著降低,当数字有五位数时,准确率只有百分之十。GPT-3给出的大多数正确答案并没有在网络上找到——例如,“245+821”这样的文本并没有出现在很多网页上——因此它所进行简单的并不是如同在文本里找算式这样的记忆。但是,尽管它摄取了大量的信息,它仍然无法推导出算术原理。对GPT-3不正确答案的仔细检查表明,它在进行算术运算时没有进位。网络上当然有解释进位的内容,但GPT-3无法将这些解释纳入其中。GPT-3对算术例子的统计分析使其能够产生一个表面上的近似,但它做不了更多。
一种可能的解释是:当涉及到某些主题时,大型语言模型表现得比较”好”的原因是它们能够识别文本中的统计规律,并据此生成相关的文本。这种表现可能会给人一种假象,即模型实际上理解了所涉及的主题。(因为它说的话是互联网找不出来的,是它“思考”的结果),但事实上,当涉及到像加减乘除这样的小学生都掌握的基础学科时,它仍然一筹莫展。
我们只能说,当处理单词序列时,有时使用有损压缩方法反倒可以让语言模型看起来更加“聪明”。由于 ChatGPT 产生不出精确的引文,这种“不精确”恰恰是我们认为它已经“理解”了输出给它的一些东西的原因。事实上,如果 ChatGPT 是一种无损算法,总是通过提供相关网页的原话来回答问题,我们可能会认为它只是比传统搜索引擎略微好一些,而不会对它的表现感到印象深刻。ChatGPT重新表述网络上的材料而不是逐字引用,这使得它看起来像是一个用自己的话表达想法的学生,而不仅仅是在背诵它阅读的内容; 这种“模糊”创造了 ChatGPT 理解材料的幻觉。
关于Chatgpt的应用,现在说的人已经很多了。把它比作一张模糊的缩略图也给我们新提供了一种评估它能做什么不能做什么的思路。接下来让我们考虑几种具体情况。
大型语言模型能否取代传统搜索引擎?要做到这一点,我们需要确保它们没有受到宣传或阴谋论的影响,且能够正确捕捉互联网上的信息。即便大型语言模型包含我们想要的信息,仍需解决信息模糊的问题。模糊分为可接受和不可接受的两类。前者是使用不同措辞表述同一信息,后者是明显的虚构。消除难以接受的模糊性同时保留可接受的那部分,这么做是否可行目前还不确定。
不过即使可以防止虚构行为,我们是否应该利用大型语言模型再生产互联网内容?依我看,只有我们的目标是将互联网上可用的信息时重新包装时,这样做才有意义。有些公司比如内容工厂就是为此而存在的,但换句话说,将大型语言模型用于重新包装信息可能使本就信息爆炸的互联网变得更加模糊,这实际上对于寻找信息的人来说并不利。
大型语言模型能否协助人类进行原创写作?要回答这个问题,必须明确提出问题的内涵。有一种名为复印艺术或影印艺术的艺术流派,在这种流派中,艺术家们利用复印机的特殊性能创作。如果ChatGPT这一工具具备类似的特点,那么它也肯定有创作这种艺术的可能,从这个意义上说,答案是肯定的。但我不认为有人会宣称复印机已成为艺术创作的必要工具;绝大多数艺术家都没有使用复印机进行创作,也没人认为这种选择会让他们在艺术生产中处于不利地位。
那么假设我们不是在谈论类似复印艺术的新类型写作,那么我们要问的是,大型语言模型生成的文本是否可以成为作家原创小说或非小说作品的有用起点?让大型语言模型去处理行文套路能否可以让作家将精力更好地放在创造性的部分呢?
显然,没有人能代表所有作家,但作为一个作家,我至少有权利来论述一下这个问题。我认为以模糊的剽窃它人作品为起点不是创作原创作品的好方法。如果你是作家,你会在创作原创作品之前写很多非原创作品。这些不创新的工作所花费的时间和精力并不是浪费,恰恰相反,正是这些工作最终使你能够创作出原创作品。花费时间选择正确的词汇和按顺序调整句子的时间是本质上教你如何通过散文的形式传达意义。让学生写作文不仅是为了测试他们对材料的理解,而且还可以让他们有机会表达自己的想法。如果学生从未写过过去被人写过的东西,他们就永远无法掌握写一些我们从未读过的东西所需的技能。
这并不是说一旦你不再是学生,就可以放心地使用大型语言模型提供的模板。表达思想的努力并没有因为你毕业而消失,每次起草新文章时都需要进行这样的努力。有时候只有在写作的过程中你才会发现你的原创思路。有人可能会说,大型语言模型的输出看起来并不比人类作家的初稿有什么区别,但我认为这是一种表面上的相似之处。因为文章的初稿从来不是一个明确表达的非原创思路,而是一个不好表达的原创思路,并伴随着你对模糊的不满和你对于它表达的和你要表达的差距的感知而加以改进。这就是你在重写时的方向,也是你从大型语言模型生成的文本中所缺乏的东西之一。
写作并没有什么神奇或神秘的地方,但它不仅仅是把现有文件放在一个不可靠的复印机上,然后按下打印按钮就能完成的事情。也许在将来,我们将会建立一种人工智能,它仅仅依靠它对世界的经验,就能够写出好的散文。如果实现这个目标,那将是一个极具历史意义的时刻,但这一天的到来仍然遥远。与此同时,合理的问题是,仅仅具备将互联网重新表述的大型语言模型有什么用处呢?如果我们永久失去对于互联网的访问,并不得不将其存储在一个空间有限的私有服务器上,这时的ChatGPT这类大型语言模型可能是一个好的解决方案,前提是它能够避免虚构行为。但我们并没有失去我们对于互联网的访问。那么,当你仍然可以获得原始信息时,那么一张模糊的缩略图有什么用呢?
评论区
共 20 条评论热门最新