神经网络（输出层的设计）-智慧文博士

输出层的设计

神经网络可以用在分类问题和回归问题上，不过需要根据情况改变输出
层的激活函数。一般而言，回归问题用恒等函数，分类问题用softmax 函数。

机器学习的问题大致可以分为分类问题和回归问题。分类问题是数
据属于哪一个类别的问题。比如，区分图像中的人是男性还是女性
的问题就是分类问题。而回归问题是根据某个输入预测一个（连续的）
数值的问题。比如，根据一个人的图像预测这个人的体重的问题就
是回归问题（类似“57.4kg”这样的预测）。

恒等函数和softmax函数

恒等函数会将输入按原样输出，对于输入的信息，不加以任何改动地直
接输出。因此，在输出层使用恒等函数时，输入信号会原封不动地被输出。
另外，将恒等函数的处理过程用之前的神经网络图来表示的话，则如图3-21
所示。和前面介绍的隐藏层的激活函数一样，恒等函数进行的转换处理可以
用一根箭头来表示。

分类问题中使用的softmax 函数可以用下面的式（3.10）表示。

yk=exp⁡(ak)∑i=1nexp⁡(ai)y_k = \frac{\exp(a_k)}{\sum_{i=1}^n \exp(a_i)}yk=∑i=1nexp(ai)exp(ak)
exp(x)exp(x)exp(x)是表示 $ e^x $ 的指数函数(e(e(e是纳皮尔常数 2.7182…)。式 (3.10) 表示假设输出层共有 $ n $ 个神经元，计算第 $ k $ 个神经元的输出 $ y_k $。如式 (3.10) 所示，softmax 函数的分子是输入信号 $ a_k $ 的指数函数，分母是所有输入信号的指数函数的和。

用图表示softmax 函数的话，如图3-22 所示。图3-22 中，softmax 函数
的输出通过箭头与所有的输入信号相连。这是因为，从式（3.10）可以看出，
输出层的各个神经元都受到所有输入信号的影响。

现在我们来实现softmax 函数。在这个过程中，我们将使用Python解释
器逐一确认结果。

>>>a=np.array([0.3,2.9,4.0])>>>>>>exp_a=np.exp(a)# 指数函数>>>print(exp_a)[1.3498588118.1741453754.59815003]>>>>>>sum_exp_a=np.sum(exp_a)# 指数函数的和>>>print(sum_exp_a)74.1221542102>>>>>>y=exp_a/sum_exp_a>>>print(y)[0.018211270.245191810.73659691]

这个Python实现是完全依照式（3.10）进行的，所以不需要特别的解释。
考虑到后面还要使用softmax 函数，这里我们把它定义成如下的Python函数。

defsoftmax(a):exp_a=np.exp(a)sum_exp_a=np.sum(exp_a)y=exp_a/sum_exp_areturny

实现softmax函数时的注意事项

上面的softmax函数的实现虽然正确描述了式（3.10），但在计算机的运算
上有一定的缺陷。这个缺陷就是溢出问题。softmax 函数的实现中要进行指
数函数的运算，但是此时指数函数的值很容易变得非常大。比如，e10e^{10}e10的值
会超过20000，e100 会变成一个后面有40 多个0 的超大值，e1000e^{1000}e1000的结果会返回
一个表示无穷大的inf。如果在这些超大值之间进行除法运算，结果会出现“不
确定”的情况。

计算机处理“数”时，数值必须在4 字节或8 字节的有限数据宽度内。
这意味着数存在有效位数，也就是说，可以表示的数值范围是有
限的。因此，会出现超大值无法表示的问题。这个问题称为溢出，
在进行计算机的运算时必须（常常）注意。

softmax 函数的实现可以像式（3.11）这样进行改进。
yk=exp⁡(ak)∑i=1nexp⁡(ai)y_k = \frac{\exp(a_k)}{\sum_{i=1}^n \exp(a_i)}yk=∑i=1nexp(ai)exp(ak)=Cexp⁡(ak)C∑i=1nexp⁡(ai) = \frac{C \exp(a_k)}{C \sum_{i=1}^n \exp(a_i)}=C∑i=1nexp(ai)Cexp(ak)

=exp⁡(ak+log⁡C)∑i=1nexp⁡(ai+log⁡C)= \frac{\exp(a_k + \log C)}{\sum_{i=1}^n \exp(a_i + \log C)}=∑i=1nexp(ai+logC)exp(ak+logC)

=exp⁡(ak+C′)∑i=1nexp⁡(ai+C′)= \frac{\exp(a_k + C')}{\sum_{i=1}^n \exp(a_i + C')}=∑i=1nexp(ai+C′)exp(ak+C′)
首先，式（3.11）在分子和分母上都乘上C这个任意的常数（因为同时对
分母和分子乘以相同的常数，所以计算结果不变）。然后，把这个C移动到
指数函数（exp）中，记为logClog ClogC。最后，把logClog ClogC替换为另一个符号C′C^{'}C′。

式（3.11）说明，在进行softmax 的指数函数的运算时，加上（或者减去）
某个常数并不会改变运算的结果。这里的C′C^{'}C′可以使用任何值，但是为了防
止溢出，一般会使用输入信号中的最大值。我们来看一个具体的例子。

>>>a=np.array([1010,1000,990])>>>np.exp(a)/np.sum(np.exp(a))# softmax函数的运算array([nan,nan,nan])# 没有被正确计算>>>>>>c=np.max(a)# 1010>>>a-c array([0,-10,-20])>>>>>>np.exp(a-c)/np.sum(np.exp(a-c))array([9.99954600e-01,4.53978686e-05,2.06106005e-09])

如该例所示，通过减去输入信号中的最大值（上例中的c），我们发现原
本为nan（not a number，不确定）的地方，现在被正确计算了。综上，我们
可以像下面这样实现softmax 函数。

defsoftmax(a):c=np.max(a)exp_a=np.exp(a-c)# 溢出对策sum_exp_a=np.sum(exp_a)y=exp_a/sum_exp_areturny

softmax函数的特征

使用softmax()函数，可以按如下方式计算神经网络的输出。

>>>a=np.array([0.3,2.9,4.0])>>>y=softmax(a)>>>print(y)[0.018211270.245191810.73659691]>>>np.sum(y)1.0

如上所示，softmax函数的输出是0.0 到1.0之间的实数。并且，softmax
函数的输出值的总和是1。输出总和为1 是softmax 函数的一个重要性质。正
因为有了这个性质，我们才可以把softmax 函数的输出解释为“概率”。

比如，上面的例子可以解释成y[0]的概率是0.018（1.8%），y[1]的概率
是0.245（24.5%），y[2]的概率是0.737（73.7%）。从概率的结果来看，可以
说“因为第2 个元素的概率最高，所以答案是第2 个类别”。而且，还可以回答“有74%的概率是第2 个类别，有25%的概率是第1 个类别，有1%的概
率是第0 个类别”。也就是说，通过使用softmax 函数，我们可以用概率的（统
计的）方法处理问题。

这里需要注意的是，即便使用了softmax 函数，各个元素之间的大小关
系也不会改变。这是因为指数函数（y=exp(x)）（y = exp(x)）（y=exp(x)）是单调递增函数。实际上，
上例中a的各元素的大小关系和y的各元素的大小关系并没有改变。比如，a
的最大值是第2 个元素，y的最大值也仍是第2 个元素。

一般而言，神经网络只把输出值最大的神经元所对应的类别作为识别结果。
并且，即便使用softmax 函数，输出值最大的神经元的位置也不会变。因此，
神经网络在进行分类时，输出层的softmax 函数可以省略。在实际的问题中，
由于指数函数的运算需要一定的计算机运算量，因此输出层的softmax 函数
一般会被省略。

求解机器学习问题的步骤可以分为“学习”A 和“推理”两个阶段。首
先，在学习阶段进行模型的学习B，然后，在推理阶段，用学到的
模型对未知的数据进行推理（分类）。如前所述，推理阶段一般会省
略输出层的softmax 函数。在输出层使用softmax 函数是因为它和
神经网络的学习有关系（详细内容请参考下一章）。