- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《机器学习：算法视角（原书第2版）》 —3.3　感知器

华章计算机发表于 2019/12/21 14:36:28 2019/12/21

【摘要】本节书摘来自华章计算机《机器学习：算法视角（原书第2版）》一书中第3章，第3.3.1节，作者是[新西兰]　史蒂芬·马斯兰（Stephen Marsland），高　阳　商　琳　等译。

3.3　感知器

感知器无非是一个由McCulloch和Pitts的神经元组成的集合，它包含一组输入和一些把输入和神经元连接在一起的权重。网络可以在图3-2中见到，左边以浅灰色阴影表示的是输入节点。这些不是神经元，而是一个示意图，形象地表示了输入是如何提供给网络的，以及输入值的个数（这等于输入向量的维度（元素的数量））。这些几乎总是画成圆形，就像神经元一样，很容易引起混淆，所以我加上了不同深度的阴影。在图中，右边的为神经元，并且可以看到加法的部分（以圆形表示）和阈值的部分。实际上，没有人会把阈值部分分开来画，你只需要记住它是神经元的一部分。

　图3-2　感知器网络，包括输入节点集（左），它们与McCulloch和Pitts的神经元通过权重连接

请注意，在感知器中，神经元彼此之间是完全独立的。对任一个神经元来说，别的神经元在做什么与它无关，它所做的只是把输入的每一个元素与相应的权重相乘，然后把所有的乘积相加，再把所得的结果与阈值相比较，以判断是否激活，而无须考虑其他神经元在做什么。甚至连每一个神经元的权重也是彼此独立的，所以它们之间唯一共享的就是输入，每一个神经元都会见到提供给网络的所有的输入。

在图3-2中，输入的个数与神经元的个数相同，但实际情况并不一定是这样，一般地，有m个输入和n个神经元。输入的个数是通过数据决定的，与之类似的还有输出的数量。由于进行的是监督学习，所以我们想要感知器学会复制一个特定的目标，即对于一个给定的输入，得到一个包含激活和不激活的神经元的模式。

在之前研究McCulloch和Pitts的神经元时，权重被标记为wi，i的取值范围是从1到输入的数量。这里，我们还要弄清楚权重是提供给哪个神经元的，所以我们把权重标记为wij，j的取值范围是从1到神经元的数量。所以，w32就是连接输入节点3和神经元2的权重。当我们具体实现神经网络的时候，可以使用二维数组来保存这些权重。

现在，计算神经元是否激活就简单了。我们设置输入节点的值为输入向量的每一个元素，然后对每一个神经元使用方程（3.1）和方程（3.2）。我们可以对每个神经元都进行这样的处理，所得的结果就是一个神经元激活与不激活的模式，看上去就像一个由0和1组成的向量。因此如果有5个神经元，就像图3-2中那样，那么一个典型的输出模式可能是（0，1，0，0，1），这表示第2个神经元和第5个神经元激活了，而其他的都没有。我们把这个模式与目标模式，即已知的由该输入得出的正确结果进行比较，可以鉴别出哪些神经元得到了正确的结果，哪些没有。

对于一个得到正确结果的神经元，我们感到满意，但是任何一个本不应该激活而激活，或是应该激活而没有激活的神经元，则需要进行权重的调整。但困难在于我们并不清楚权重本来应该是什么样的，归根结底，这也是神经网络的重点所在，所以我们想要调整权重使得神经元在下一次能够得到正确的结果。在第3章中，关于这一点我们将讨论更多的细节，现在我们将做一件很简单的事情来证明找到一个这样的解是可能的。

假设我们把一个输入向量提供给网络，其中的一个神经元得到了错误的结果（它的输出与目标不相符）。与那个神经元相连的有m个权重，每一个权重对应一个输入节点。如果我们把结果错误的那个神经元标记为k，那么我们感兴趣的权重就是wik，i的取值从1到m。这样我们就知道了哪些权重是需要调整的，但我们仍然需要弄清楚如何调整这些权重。我们首先需要了解的是，每一个权重是偏大还是偏小。这似乎是显而易见的，如果神经元本不应该激活而激活了，那么某些权重是偏大的，反之如果神经元应该激活而没有激活，则某些权重是偏小的。所以我们计算yk-tk，tk是这个神经元的目标，表示它应该得到的结果，而yk是神经元的输出，表示它已经得到的结果，该表达式是一个可行的误差函数（error function）。如果结果为正，那么该神经元本应该激活但没有激活，所以我们就把权重调大一些，反之也成立。等一下，这里输入向量的元素可能为负，这会改变整个值的符号，所以如果我们想让神经元激活，就需要让权重也为负。为了顺利应付这种情况，我们将通过把这两个值相乘来看应该如何调整权重：Δwik=-(yk-tk)×xi，并且把所得的值与旧的权重相加来得到新的权重。

注意到我们还没有提过改变神经元的阈值的事。为了说明它的重要性，假设有一个特殊的输入0。在这种情况下，如果某一个神经元的结果是错误的，那么即使改变了相应的权重也无济于事（因为任何数与0相乘还是0），因此，需要改变它的阈值。我们将在3.3.2节中讲述一种巧妙的方法。然而，在那之前，先要完成学习规则，即我们需要决定每个权重改变多少。这可以通过把上面的值与一个称为学习速率（learning rate）的参数相乘得到，学习速率通常标记为η。学习速率的值决定了网络学习的快慢。它非常重要，因此需要用一个独立的小节来讲解（下一节），但首先让我们给出权重更新的最终规则：wij←wij-η(yj-tj)·xi(3.3)另一件我们现在需要意识到的事情是，每一个训练样本都要多次提供给网络。第一次的时候可能会得到一些正确的结果和一些错误的结果，下一次的时候希望能有所进步，直到最终，停止进步。计算出整个网络训练的时间可不是一件容易的事情，我们将会在4.3.3节中看到更多的方法，但是现在，我们将预定义最大的循环次数为T。当然，如果网络能够计算到所有正确的输入，那么也会是结束的好时机。

3.3.1　学习速率η

上面的式（3.3）告诉我们如何调整权重，其中的参数η控制着权重调整的幅度。我们可以把它设为1，从而忽略掉它。如果那样做的话，每当出现一个错误的结果，权重将会进行大幅度的调整，这会导致网络不稳定（unstable），从而使权重的改变永远都不能停止。如果把学习速率设置得较小，那么在权重发生较大变化之前，需要更多次地提供输入，从而使网络要花费更多时间去学习。然而，这样将会更加稳定，而且对数据中的噪声（noise，即错误）和不精确的成分具有更好的抵抗力。因此，我们选用一个适中的学习速率，一般为0.1<η<0.4，这取决于我们预计输入中会有多少错误。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《机器学习：算法视角（原书第2版）》 —3.3　感知器

3.3　感知器

3.3.1　学习速率η

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《机器学习：算法视角（原书第2版）》 —3.3 感知器

3.3 感知器

3.3.1 学习速率η

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《机器学习：算法视角（原书第2版）》 —3.3　感知器

3.3　感知器

3.3.1　学习速率η