AI只是个锤子 | 机核 GCORES

本文系用户投稿，不代表机核网观点

 AI绘画是一个一两年前出现的只能生成仿画的玩具。 
1 / 2
我原本是这么认为的，但当我自己深入的使用和研究过后，我发现这种认知是完全错误的。画一张画不是图像生成AI的目标，也不会是它的价值。
我想很多人都看过了前不久Sora的演示视频，甚至用些人认为这代表AI可以自己做电影。我们姑且不论这些视频是经历了漫长的生成和筛选过程才得到的片段，单从本质而言，这种认识和让AI绘画生成艺术品一样，忽视了画面背后的含义。
“AI画得不好看。”经常关注一些动画或者手游相关领域的朋友应该多多少少见过这种态度，虽然一部分人发表这种观点只是因为自身立场或者是对AI的敌视态度，但是另一方面与真正优秀的插画作品相比，AI图像的设计感太过薄弱了。
“画得像就是好。”这种观念在摄影机出现后就已经死了。一副好的插画其姿态、背景、装饰、表情等等构成了一个主题，综合为一幅画，而这种控制是AI难以独立实现的。大多数时候AI只能像摄影术刚出现时一样，在像不像上和绘画、摄影较劲，而不敢深入关于艺术的讨论。
“如果AI能创造艺术，那一定是因为它背后有一个艺术家。”AI无法甄别什么是艺术，更难以基于一个主题去设计一幅画面；但是控制AI的人可以，一个艺术家是可以通过控制AI去创作艺术作品的，就像控制相机或是画笔那样。换言之，艺术家创作了艺术。
1 / 2
“那么AI的意义在哪里呢？”是的，艺术家创作艺术，似乎什么都没改变，图像生成AI似乎没什么价值，确实就艺术领域而言，AI更接近一个噱头，因为创造艺术品真正的门槛在于艺术家而非它们所使用的创作工具，但是对于一般大众而言，图像生成AI降低了图像的使用门槛，基于自然语言的图像生成工具使得一切文字都可以近乎无成本地升级为图像。
“我曾经找了一整天图库，只为了一张说相声的桌子。”当时为了做一个说相声的视频，我需要一个相声桌的图片，但是翻遍各个图库却难以找到一个合适的素材。我们如今确实用非常庞大的网络资源库为我们的文案工作提供图像资源辅助，但是当我们的需求包含两个或以上主体时往往很难找到满意的图片或者耗费大量时间精力去检索，但其实这些图片只是需要表达某个概念只要清晰易懂就好，不需要特别设计，这种时候AI工具就能够发挥很好的效果。像以前需要一个画师才能够实现的各类四格漫画，如今也只需要写写台词就能做到。
“创作简单的示意图是AI目前最大的实际应用场景。”目前已经有很多人已经在使用了，最为突出的就是儿童绘本和儿童玩具插画领域，这些使用场景当中的插画本就不需要很清晰的细节只需要清晰的表达概念就好，而这正是目前AI生成最擅长的领域【表达有具体形象的概念】，因此儿童绘本和儿童玩具插画也是目前AI图像生成变现最具体的方式。
但这并没有释放AI在儿童领域的真正潜力，图像生成AI完全可以应用在儿童教育上，即使只有目前的技术水平，我们教育孩子认识概念上最重要的两个点就是图文并貌和即时反馈，许多早教玩具都是基于此设计的，如今图像生成AI就能够完成这两个要求，它不需要去给儿童玩具画插画，它本身就能成为很好的儿童玩具。图文传达概念这点不用多说，早教所需的概念远少于日常使用，经过针对性优化语音识别和图像生成的准确率和宽容度都会很好。关键在于即时反馈，生成一张图像的时间过长，儿童很难建立起概念与图像间的联系，因此生成速度是极为重要的。但目前AI图像生成的速度如何呢？1秒，甚至半秒，经过针对性优化的模型只需要0.3秒就能够生成一张质量达标的图像。你能想象当孩子说长颈鹿画面就出现长颈鹿，当他说短颈鹿，就会出现短脖子的长颈鹿时他会感到多么神奇吗？
1 / 2
当然，这样的即时生成能力不可能只用在儿童教育领域。不知道大家记不记得三体中的一个场景，罗辑描述、大史画图，最后找到庄颜的剧情。这样的情形在刑侦过程中也很常见，警察通过证人的口头描述来绘制嫌疑人画像，如今使用AI工具也可以轻松实现。虽然远不如警方的画像那样专业，但它确实跨越了技术壁垒，来到了日常生活的领域且不只是绘制人像。
“激进地讲，这是能够改变人类交流习惯的技术。”人们在现实生活的交流当中基本只使用语言和文字作为主要的信息传递工具，图像则因为时间和能力的门槛很少使用，但是通过手机和云部署技术，AI图像生成可以接入到任何一场对话当中，半秒不到的响应速度并且不需要分身操作，就可以自然地融入对话过程，帮助双方更加准确的理解交流的内容。直接的例子如翻译软件，各种翻译软件完全可以通过接入图像接口来帮助使用者传递一些难以用纯文字表述的概念，让图像真正成为一种全民化的信息传递工具。