对于这个系列而言,之前粗略的涉及了几篇计算机视觉和图像相关的阅读,可以算是“图形”的部分;而这次开始会开启比较核心的“AI”部分。后续相关的图形、图像方面的应用技术应该就都和AI相关,会伴随着一起读。
之所以选择一些美国大学的课件,一方面是更容易搜索到,另一方面确实一些课件相对做得足够好、而翻译学习的过程也能让我自己避免走马观花地去读这些东西。这次选择的是 科罗拉多大学 (University of Colorado)博尔德分校的 NeuralNetworksAndDeepLearning 课件(博士课程)——不出意外的话这一整个课题我都会以读它的课件为主。
这组课件最初的编撰年份是2022年,这期间不清楚有没有持续更新,但覆盖的内容已经比较前沿了。例如 注意力 (Attention)机制和 转换器 (Transformers)以及一些更复杂的课题,以后都会读到。
本文还是以翻译PPT页内容为主,打星号的部分则是我的补充说明。
(开发)系统在以下两方面为人类提供支持:提升人类已有的能力、或者提供新的能力。
*实际情况是,这些应用项目里,有至少一半的内容其实偏离了对人的辅助。
2 神经网络和深度学习的历史——History of neural networks and deep learning
1945——第一台可编程机器ENIAC是二战期间制造的,每秒能计算5000次加法。
1950——图灵测试。接收者C能否依据输出(或书写)的文本区分出文本是来自真人还是机器。
1956——最初诞生出的一些研究领域包括:语音识别、自然语言处理、计算机视觉。(都是关于计算机要模仿哪项人类的智能)
1959——提出了“机器学习”的定义:给予计算机以硬性编程以外的学习能力的研究领域。
人为设定规则的处理逻辑(如图)——这里指人工编写大量分支规则为主要方法的系统(大量If Else之类)。
例如,要回答“图像中是否有一个人”的问题,该如何编写规则?
有时会很难人工编写完备的规则组
我们,作为人类,可能也不一定为机器设计了最好的规则,因为我们的大脑(无意识间)预处理了我们感知的数据。
在人工编写规则的方式中,对于 特征提取 和 预测 ,哪些特征能辅助预测?例如:转角、线条、把相连形体建模成人体结构等。
*由于人工编写这套规则挑战过大,因此人们提出了 基于神经网络的表征学习 (也在这套课件的课程范围)。
神经网络并不是一个新概念,过去数次被以不同名字提出。(*见图中,曾用名就不翻译了,意义不大)。可以看出前两次高峰是1970年以及近2000年。
2012——“深度学习”的崛起。机器学习在这一波热潮中几乎可以等价于指深度学习(两者的流行度如图)。
3 机器是如何学习的?——How does a machine learn?
(开发)一种 算法 ,能学习 数据 的模式并用于进行预测。
*图1——集群化;图2——异常检测。(Scikit-learn等几个都是机器学习库)
*图1——数学回归(预测 连续 的值);图2——分类(预测 离散 的值)。(离散方式中的标签和样本提供一个训练集合,输出一个预测的新实例)
基于建模的分类方法——例如(图中)建立一个模型以将X和O区分开。
主动分类(*volunteer一词可能代表是人工划分的,不确定):
画一条直线(线性方程)
画一条抛物线(二次方程)
画任意曲线
为什么学习旧的算法?现代深度学习算法也依赖过去65年开发的一些技术。
前馈神经网络、神经网络(NN)训练、卷积神经网络(CNN)、训练CNN算法、CNN和常出现的神经网络、神经词语嵌入和注意力、转化器、多模态NN(视觉+语音)、 迁移学习、模型压缩&增强学习、语音处理的NN&信息检索、工业中的深度学习、伦理的深度学习&课程总结。
* Embedding 指将高维度的数据(如文字、图片、视频)映射到低维度空间,生成一个N维的实值向量。
*之前几篇简单的读了一下图像方面的分析和处理,包括逐像素的处理和整体比较等。
*视频在图像的基础上还要考虑连续时间上的模式识别等问题。(右下角类比了书页动画的例子)
*页中列出了一些常见的数据集合来源,包含以上各种数据类型。
例如:训练算法使用GPU(想象保时捷)而不是CPU(想象高尔夫篷车)。(*美式汽车例子,当然使用GPU更快对于大众来说不是什么新鲜事了)
*左图:谷歌照片标示道歉,因为将两个黑人标注为了猩猩。
*右图:两个孩子(姐姐和弟弟)为他们的妈妈购买了一台相机作为母亲节礼物,但当他们彼此拍摄人像时,相机会弹出浮动消息“有人眨眼了么?”——错误地识别为眨眼而无法拍摄。
*右图的消息我去看了一下信息中的原文,其标题是《Are Face-Detection Cameras Racist?》(人脸识别相机是否有种族歧视?)。大概说的就是相机无法识别亚裔人脸。
*左侧的消息是2015年,右侧的消息是2010年。这些例子表现了AI在发展不健全的阶段就出现的一些伦理上的问题。
*由于不是实际在进行课程,因此只翻译其中对于知识概述的部分、略去作业相关的部分。
*美式特色的preferred pronouns标注。
描述训练和测试深度学习算法的过程。
明确训练现代深度学习算法所面临的“大”数据量的挑战。
认知不同算法的强弱项。
实验深度学习库,包括scikit-learn和Keras。
在不同的应用领域评估深度学习算法,包括分析文字和图像。
调用云计算资源以从现代硬件和软件平台中获益。
你需要具备一定的编程能力,以及概率、统计学和线性代数的知识。
*课件导师的个人职业履历,这里就不一一翻译了,但确实在计算机视觉和语言等AI相关领域深耕了非常久。(例如:图像分类、物体探测、语义分割、物体追踪、图像字幕、视觉问题回答、风格迁移、图像修复和图像搜索)
这次我在初步看了前三讲的课件后,思考了是从直接有理论介绍的第2课开始读,还是读一下没什么“干货”的这个综述篇。逐页读下来发现也是一篇不错的科普,本身知识难度不高;后面涉及到具体数学知识和算法的时候,难度逐渐会上来。
这类知识由于太火爆了,网上各种10分钟(配图、配动画)的介绍已经充斥了网络——其实想了解个大概去看那些视频完全够,不过我个人还是想比那多一步,以更“老派”点的方式来了解机器学习和神经网络。
虽然最初DNN的提出肯定是很大程度上参考了人的认知反馈神经体系的,但发展到现在其实很多方面都不太一样了,力求解决的课题也远超出了人类能力的范畴(生成式AI等);而相反在模仿和辅助人类能力的范畴内,其实AI很多时候还无法做到比人类少犯错(比如自动驾驶等),大部分领域还处于“只能打顺风局”的状态。
我读这个系列也主要是以知识性的了解为目的。至于人工智能将去向何方,是否能变得像人类智能,这个问题见仁见智;我个人觉得AI几乎不太可能接近人——它要么不如人、偏工具化,要么获得一定自主权限后会无限调用算力大幅超越人类。重轻老师的《原型》系列中有一集就是对人工智能的讨论,有兴趣的也推荐去听听。
评论区
共 条评论热门最新