12 多分类问题-白红宇

12 多分类问题

阅读量：233 次

发布时间：2019-02-28

本文共 4786 字，大约阅读时间需要 15 分钟。

说在前面

这篇博客主要介绍怎么解决多分类问题？下面我们解决多分类问题的时候会用到 Softmax Classifier，下面我们就来看看 Softmax 分类器怎么解决多分类问题的以及我们如何实现。

上一篇博客我们对糖尿病数据集进行了二分类，我们最后输出的是

y = 1

的概率和

y = 0

的概率。因为我们只有两个分类，所以我们只需要算出一个分类的概率，另一个分类的概率直接用 1 减去上一个分类的概率即可。

在这里插入图片描述

但实际上，我们还介绍了一些其他数据集，比如 MNIST（手写数字），这个数据集的分类一共有 10 类（分别是数字 0-9），下面我们主要讨论两个话题：第一个是怎么用 Softmax 分类器来解决 MNIST 数据集多分类问题？第二个就是我们怎么使用 Pytorch 去实现？

多分类问题

如果你有 10 个分类，那么你怎样设计神经网络？第一种设计的方式就是由原来的一个输出变成 10 个输出，即输出分别等于 0–9 的概率值。

在这里插入图片描述

这样我们就能输出它属于每个分类的概率，但是需要注意的是，我们这里是把每一个类别看做是一个二分类问题。那么这里会存在一些问题，因为一个样本肯定是属于 10 个类别中的一个，所以最后的 10 个输出应该是互相抑制的。再举个简单例子，假设上图中

O_1

值输出为 0.8，那它就得抑制后面的其它输出要变小。但是我们用这种方法解决多分类问题，我们是没办法解决抑制问题的，所以我们最好不要输出它属于每个类别的概率，比如说，一个样本属于

y_1

的概率为 0.8，属于

y_2

的概率为 0.8，属于

y_3

的概率为 0.9，单从概率值上来看，

y_3

应该比另外两个更有可能，但是

y_1

说它有 80% 的可能属于

y_1

，

y_3

有 90% 的可能属于

y_3

，其实这二者是互相矛盾的。所以我们希望我们将来输出的10个输出能够满足分布上的要求，即每个输出都要大于 0，还有就是 10 个输出的和等于 1。

所以在处理多分类问题的时候，我们在神经网络前面的一些层里还是使用 Sigmoid 函数，但是我们最终输出层不再使用 Sigmoid，因为 Sigmoid 得不到我们想要的结果，我们需要做的是一个 Softmax 层，它能够输出一个分布，它满足分布需要的两个条件。

在这里插入图片描述

那下面我们就来看看 Softmax 是怎么实现的？它怎么保证将最后的输出都大于 0，还有就是让所有的输出值的和为 1。

假设用

Z^l

表示第

l

层的输出，它是最后一个线形层的输出，那么 Softmax 函数表达式如下：

在这里插入图片描述

对于 $Z^l$ 来说，它有多个输出，比如 $z_0$ 到 $z_k-1$ （假设有 $k$ 个分类），我们得先算分子 $z_i$ 的指数，这里为什么要用到 e^( $z_i$ ) 呢？因为指数的运算得到的结果永远是大于 0 的。然后分母的计算就是将 e^( $z_0$ ) 一直加到 e^(z_k-1)，就是将每个分类的输出进行求和。让每一项都除以它们的和目的就是为了满足每个分类结果相加之和为 1。

下面举个简单的例子。比如现在有 3 个分类，那么经过线性层的空间变换后我们有三个输出值：

在这里插入图片描述

第一步我们对每一个输出结果进行指数运算将其转换成大于 0 的值：

为了使得它们的和为 1，所以三个值分别除以它们的和：

那么最后就形成了一个分布。有了分布之后，我们才能够更好的设计损失函数。我们把输入的值经过指数运算，然后分别除以它们的和，我们把这一过程称做 Softmax。

在这里插入图片描述

那么我们用 Softmax 得到分布后，我们怎么定义损失函数？

在这里插入图片描述

之前的二分类问题用的是交叉熵的方式作为损失函数：

在这里插入图片描述

所以实际上对于两个分类来说，将来求和的时候有两项，但是这两项在任何时候只有一个值是非零的，如果

y = 0

，即样本标签是 0，那么

y l o g y

该项就是 0；同理，如果

y = 1

，即样本标签是 1，那么

(1 - y) l o g (1 - y)

该项就是 0。所以我们扩展到多分类之后，我们要使得：

所以我们的 Loss 函数变成了：

在这里插入图片描述

那么我们就可以将 Loss 过程分解成先进行 Log 运算，再与

Y

相乘：

以我们将下面框中的过程称做 NLLLoss。

在这里插入图片描述

下面是我们用代码实现 NLLLoss 过程：

在这里插入图片描述

将在 Pytorch 里面提供了一个更常用的损失：交叉熵损失。这个损失从 Softmax 开始，然后求对数，到得到结果为止的整个过程叫做交叉熵损失。

在这里插入图片描述

所以在我们使用交叉熵损失的时候，我们神经网络的最后一层是不做激活的，因为把它们变成分布的激活函数是包括在交叉熵损失里面的，所以最后一层不要做非线性变换，直接将结果交给交叉熵损失即可。在做交叉熵损失时，需要注意

y

是一个 LongTensor，是一个长整型的张量。

在这里插入图片描述

下面我们看一个具体例子：现在我们有 3 个样本，这 3 个样本分别是属于第 2 类，第 0 类，第 1 类。

在这里插入图片描述

假设我们现在有两组预测：Y_pred1 和 Y_pred2,我们看一下它们的损失结果是怎样的？我们通过计算可以分别得出两组预测值的交叉熵损失：

在这里插入图片描述

很显然，第二个预测的交叉熵更大一些，而且我们从数据也能看出来，第一个预测是比较好的，所以它的交叉熵相应的也更小一些。

有了 Softmax 和交叉熵损失之后，我们再回过头看怎么处理 MNIST 数据集的多分类问题。

下面是一个手写数字数据集中的一个图像：

在这里插入图片描述

该图像中，颜色越深表示其中的数值越小，最小为 0；越亮的地方表示数值越大，最大为 255。MNIST 数据集中每一张图像都是 28*28=784 个像素点，每个像素点的取值是 0-255，如果我们将它们的数值映射到 0-1 之间，表示如下：

在这里插入图片描述

那么我们要实现这样一个多分类的问题，那么我们写代码的步骤还是那四步：唯一的区别就是第四步时加上了测试数据集。

在这里插入图片描述

代码实现

接下来我们看一下代码实现：

1. Prepare Dataset

一开始，我们需要引入相关的包，其中与数据集相关的包有 transforms，Dataset 和 DataLoader。transforms 主要是对原始图像或者数据进行一些各种各样的处理。

在这里插入图片描述

其中我们改用 ReLU 函数作为激活函数，不使用 Sigmoid 函数。

在这里插入图片描述

然后还有就是优化器。

在这里插入图片描述

接下来先来看一下我们这个处理，我们这个处理里面数据的准备和以前的区别在哪呢？首先我们定义 batch-size 的大小。然后我们定义了一个 transform。我们在读取图像的时候使用的是 Python 的 PIL，然后得到的图像再用神经网络进行处理的时候，它希望处理的数值比较小，最好是在 +1 到 -1 之间，就是输入最好能够遵从正态分布，这样的输入对于神经网络的训练是最有帮助的。

在这里插入图片描述