在上一篇系列开了个头之后,这次继续读系列课件的第2篇。这次课题来到人工神经元——关于这是什么,这篇读到最后会有一个阶段性的解答。 这次会读到的“感知机”概念中,也会首次出现可基于数据进行学习(回归、线性收敛)的数学模型。
本文还是以翻译PPT页内容为主,打星号的部分则是我的补充说明。
1 二元分类的应用——Binary classification applications
*图中的Skillate是一个招聘网站。这里关于AI辅助招聘预筛选,国内的一些网站也有跟进,用过类似网站的应该不陌生。
2 评估分类模型——Evaluating classification models
*图中的例子被分别标识为“有毛发的”和“无毛发”的,希望模型经过训练能识别“毛发”这一特性。
2 用“训练集合”训练模型,以尝试最小化预测误差。
3 将训练好的模型应用于“测试集合”,以测量概括误差。(*例如图中的案例,就被识别为预测错误)
TP(True Positive)——真实值是positive,模型认为是positive的数量。
TN(True Negative)——真实值是negative,模型认为是negative的数量。
FP(False Positive)——真实值是negative,模型认为是positive的数量。这就是统计学上的第一类错误(Type I Error)。
FN(False Negative)——真实值是positive,模型认为是negative的数量。这就是统计学上的第二类错误(Type II Error)。
有多少实际是垃圾邮件的?——65个(*第一列)
有多少实际是应信任的邮件?——110个(*第二列)
有多少被正确分类的实例?——150/175 86%(*斜向总和)
有多少未正确分类的实例?——25/175 14%(*反斜向总和)
预测精度是?——83%(*统计第一行Positive的项)
查全率是?——77%(*统计第一列垃圾邮件Spam的项)
*对于部分二级指标(比例),这里直接附一个中文互联网的对照解释:
你会选择这些评估测量方法中的哪些、而不用哪些,以及为什么?
——准确性、精度、查全率。(*这三项的计算公式前面附页都提供了)
场合1:医疗检测一种稀有病症,患者每百万人中有一例。
*这里原文档并没有给出正确答案,但确实这些统计方式有其不同的侧重。
3 生物神经元:启发——Biological neurons: inspiration
神经元:神经系统的最小单元,用于接收、处理和传递信息,例如——热、吵、辣等。
*图中展示了神经元的细胞结构,包含树突和细胞体。完整的视频可以参照图中链接去看。
*说个题外话,dendrites也可以翻译成“枝晶”。不知道最近玩的《无限机兵》是不是也考虑了这个词的双关性。
4 人工神经元:感知器——Artificial neuron: Perceptron
回顾:现代深度学习算法基于(超过)65年以前开发的技术。
*图中标红的内容:1943年实现了第一个(人工)神经元数学模型,1957年实现了基础的神经元感知机。
*McCulloch-Pitts分别是神经科学家和数学家的姓(如图)。
权重(W)和阈值(T)的值是给定的。
输入和权重可能是0或1。
当组合在一起超过阈值时被激发。
*图中展示了输入来源为x1、x2两项的情况下,加权求和结果的可能分布。
(感知机是)[美国海军]预期中的电子计算机的胚胎,它将能够行走、谈话、看、写、自身重构以及意识到自身存在...[它]预期在一年内以10万美金的造价完成。
*出处是Times的文章,不确定是不是发明者的原话。后续看来,实现的这套数学模型还完全达不到这个效果——即使现在都还远没有达到。
权重(W)是可学习的。
输入和权重可能为任意值。
当组合输入超过阈值时被激发。
*这里是对于阈值θ,重写模型将阈值变为0,而-θ作为偏移值带入z的函数。(后面介绍这么处理的原因)
*这里说的可能比较抽象,其实整个过程都是关于设计一种数学回归模式,以从样本学习中进行参数化的过程(可达到线性收敛)。
(引入)偏移值的的原因:没有偏移,则模型必须通过坐标原点。(*对于右图的案例,就无法正确进行二元划分)
*这里和生物神经元做了简单类比。不过这里的“输出信号”还比较简单,只能是二元的。
2 对于每个训练样本:计算输出值(加权累加);按如图的定义更新权重值。
*权重变化量Δ的计算由:学习比率 η 、真值类型标签(值)、预测类型标签(值)组成。更细化的解释在后面几页。
当预测了正确的类型标签时会发生什么?target和output的差值为0,因此权重不需要更新。
当预测了错误的类型标签时会发生什么?target和output的差值为正或者负,因此权重被改变。
*更新后的感知机流程如图——增加了基于误差更新权重的过程。这就是最初的机器“学习”机制。
真值模型:当三个输入值中的至少两个为1时,Y等于1。(*这个规则通过数据来给出,本身对于机器学习是黑盒)
*第一次之前,各权重被初始化为0,累加值为0,输出为1。
*预测值为1,而真值为-1。因此后续基于结果修正权重。
*学习比率为0.1。带入公式w0到w3的各自修正值如图。
*用修改后的权重计算第二组数据,得出预测值是-1;而真值是1。因此继续修正权重。
*Epoch在机器学习中指全部学习数据一轮。在算法设计合适的情况下,执行轮次越多效果越好。
*图中展示了执行六轮之后的结果。可以将最终的权重带入数据,看看正确率。
*红字简单概述下,就是如果输出范围是{-1,1}则阈值选择是0;如果是{0,1}则阈值选择是0.5。
感知机作为最初级的学习反馈模型,本身有其自身的很多局限。最突出的问题是,感知机尽管可以表达与门、与非门和或门逻辑,但无法(单独)表达异或逻辑。更进一步的,它只能解决线性可分的问题,以及只能解决一层逻辑的问题;那么与之相对的,则是非线性可分的问题与多层的复杂问题,这是后续课件中会逐步读到的内容。
即使后来人们开发出了各种更复杂的模型和节点,对于神经元的算法还原似乎还处于人类比较容易实现的范围内。但也要知道人脑中有着各种其它复杂结构,由于人类对于人脑和神经系统的生物研究还没有穷尽,因此自然也不可能在这个路径上还原出类人AI来——由人类设计的深度神经网络节点,在“像人类”这一点上肯定是还差很远的。
不过从后续的发展看来,添加的各类算法单元或节点、或设计的更复杂网络结构,主要都还是服务于“处理复杂输入,高效生成指定输出”这一大的需求方向。在几次AI浪潮兴起时,人们似乎都更关注当时(至多10年内)能产生何种经济效用,而不再拘泥于要像人类这件事了。
评论区
共 条评论热门最新