图形AI粗读丨人工神经元、感知机

本文系用户投稿，不代表机核网观点

⚠️ 未经作者授权禁止转载

前言
在上一篇系列开了个头之后，这次继续读系列课件的第2篇。这次课题来到人工神经元——关于这是什么，这篇读到最后会有一个阶段性的解答。
这次会读到的“感知机”概念中，也会首次出现可基于数据进行学习（回归、线性收敛）的数学模型。
本文还是以翻译PPT页内容为主，打星号的部分则是我的补充说明。  
1 二元分类的应用——Binary classification applications
*二元分类，通俗地说就是区分两种类型

*图中的Skillate是一个招聘网站。这里关于AI辅助招聘预筛选，国内的一些网站也有跟进，用过类似网站的应该不陌生。

2 评估分类模型——Evaluating classification models

目标：设计模型以较好地概括新的、之前未见的案例。
*图中的例子被分别标识为“有毛发的”和“无毛发”的，希望模型经过训练能识别“毛发”这一特性。

1 将数据拆分成“训练集合”和“测试集合”。

2 用“训练集合”训练模型，以尝试最小化预测误差。

3 将训练好的模型应用于“测试集合”，以测量概括误差。（*例如图中的案例，就被识别为预测错误）

TP（True Positive）——真实值是positive，模型认为是positive的数量。
TN（True Negative）——真实值是negative，模型认为是negative的数量。
FP（False Positive）——真实值是negative，模型认为是positive的数量。这就是统计学上的第一类错误（Type I Error）。
FN（False Negative）——真实值是positive，模型认为是negative的数量。这就是统计学上的第二类错误（Type II Error）。
*这里附上一些中文互联网上的例子：

常用的描述性统计表述：
有多少实际是垃圾邮件的？——65个（*第一列）
有多少实际是应信任的邮件？——110个（*第二列）
有多少被正确分类的实例？——150/175 86%（*斜向总和）
有多少未正确分类的实例？——25/175 14%（*反斜向总和）
预测精度是？——83%（*统计第一行Positive的项）
查全率是？——77%（*统计第一列垃圾邮件Spam的项）
*对于部分二级指标（比例），这里直接附一个中文互联网的对照解释：

你会选择这些评估测量方法中的哪些、而不用哪些，以及为什么？
——准确性、精度、查全率。（*这三项的计算公式前面附页都提供了）
场合1：医疗检测一种稀有病症，患者每百万人中有一例。
场合2：决定哪些邮件被识别为是垃圾邮件。
*这里原文档并没有给出正确答案，但确实这些统计方式有其不同的侧重。
3 生物神经元：启发——Biological neurons: inspiration

神经元：神经系统的最小单元，用于接收、处理和传递信息，例如——热、吵、辣等。

*图中展示了神经元的细胞结构，包含树突和细胞体。完整的视频可以参照图中链接去看。
*说个题外话，dendrites也可以翻译成“枝晶”。不知道最近玩的《无限机兵》是不是也考虑了这个词的双关性。

当输入信号（在一段较短的时间）超过一定阈值，一个神经元被“激发”。
神经元“激发”（输出信号）是一个”全有或全无“的过程。
*axon——轴突。

左图——线蠕虫，302个神经元。
右图——人类，超过千亿个神经元。
4 人工神经元：感知器——Artificial neuron: Perceptron

回顾：现代深度学习算法基于（超过）65年以前开发的技术。
*图中标红的内容：1943年实现了第一个（人工）神经元数学模型，1957年实现了基础的神经元感知机。

*McCulloch-Pitts分别是神经科学家和数学家的姓（如图）。
备注：（这个模型）没有学习过程。
权重（W）和阈值（T）的值是给定的。
输入和权重可能是0或1。
当组合在一起超过阈值时被激发。

数学定义：（如图的分段函数）
只有“激发”或“不激发”；模仿人脑（的神经元）。

*图中展示了输入来源为x1、x2两项的情况下，加权求和结果的可能分布。

（感知机是）[美国海军]预期中的电子计算机的胚胎，它将能够行走、谈话、看、写、自身重构以及意识到自身存在...[它]预期在一年内以10万美金的造价完成。
*出处是Times的文章，不确定是不是发明者的原话。后续看来，实现的这套数学模型还完全达不到这个效果——即使现在都还远没有达到。

备注：
权重（W）是可学习的。
输入和权重可能为任意值。
当组合输入超过阈值时被激发。

*这里是对于阈值θ，重写模型将阈值变为0，而-θ作为偏移值带入z的函数。（后面介绍这么处理的原因）
*这里说的可能比较抽象，其实整个过程都是关于设计一种数学回归模式，以从样本学习中进行参数化的过程（可达到线性收敛）。

（引入）偏移值的的原因：没有偏移，则模型必须通过坐标原点。（*对于右图的案例，就无法正确进行二元划分）

引入偏移后，模型（函数）就不必须通过原点了。

*这里和生物神经元做了简单类比。不过这里的“输出信号”还比较简单，只能是二元的。

通过观察每个额外的例子来迭代更新线性边界。

*如图，每引入一个样本都会对线性边界产生影响。

1 将权重初始化为0或小的随机数。
2 对于每个训练样本：计算输出值（加权累加）；按如图的定义更新权重值。
*权重变化量Δ的计算由：学习比率 η 、真值类型标签（值）、预测类型标签（值）组成。更细化的解释在后面几页。 

当预测了正确的类型标签时会发生什么？target和output的差值为0，因此权重不需要更新。

当预测了错误的类型标签时会发生什么？target和output的差值为正或者负，因此权重被改变。

对于2D数据集，所有权重同时更新。

*更新后的感知机流程如图——增加了基于误差更新权重的过程。这就是最初的机器“学习”机制。

真值模型：当三个输入值中的至少两个为1时，Y等于1。（*这个规则通过数据来给出，本身对于机器学习是黑盒）

*第一组数据近X1为1，输出-1。

*第二组数据X1、X3都为1，输出1。

*完成了全部8组数据输入。

*第一次之前，各权重被初始化为0，累加值为0，输出为1。

*预测值为1，而真值为-1。因此后续基于结果修正权重。

*学习比率为0.1。带入公式w0到w3的各自修正值如图。

*用修改后的权重计算第二组数据，得出预测值是-1；而真值是1。因此继续修正权重。

*本次权重修正结果如图。

*全部数据执行完（一轮）后得出的权重如图。

*Epoch在机器学习中指全部学习数据一轮。在算法设计合适的情况下，执行轮次越多效果越好。

*图中展示了执行六轮之后的结果。可以将最终的权重带入数据，看看正确率。

学习比率
轮次数量（完整过一遍数据集）
*红字简单概述下，就是如果输出范围是{-1,1}则阈值选择是0；如果是{0,1}则阈值选择是0.5。
结语
感知机作为最初级的学习反馈模型，本身有其自身的很多局限。最突出的问题是，感知机尽管可以表达与门、与非门和或门逻辑，但无法（单独）表达异或逻辑。更进一步的，它只能解决线性可分的问题，以及只能解决一层逻辑的问题；那么与之相对的，则是非线性可分的问题与多层的复杂问题，这是后续课件中会逐步读到的内容。

即使后来人们开发出了各种更复杂的模型和节点，对于神经元的算法还原似乎还处于人类比较容易实现的范围内。但也要知道人脑中有着各种其它复杂结构，由于人类对于人脑和神经系统的生物研究还没有穷尽，因此自然也不可能在这个路径上还原出类人AI来——由人类设计的深度神经网络节点，在“像人类”这一点上肯定是还差很远的。
不过从后续的发展看来，添加的各类算法单元或节点、或设计的更复杂网络结构，主要都还是服务于“处理复杂输入，高效生成指定输出”这一大的需求方向。在几次AI浪潮兴起时，人们似乎都更关注当时（至多10年内）能产生何种经济效用，而不再拘泥于要像人类这件事了。

最后是资料链接：
NeuralNetworksAndDeepLearning-Spring2022/Lectures/02-ArtificialNeurons.pdf
知乎上一篇更详细的感知机讲解