1、softmax回归
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIiNx8FesU2cfdGLwczX0xiRGZkRGZ0Xy9GbvNGL0EzXlpXazxSP9cnYqljMZRjTIVWQClGVF5UMR9Fd4VGdsATNfd3bkFGazxSUhxGatJGbwhFT1Y0Mk9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL1cDOiNTM2UWOxMGN4czNhVjZ4QjMiBDMyYWYkFmMkRzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
图1 softmax回归是一种单层神经网络
向量形式表示 o=Wx+b
softmax函数
softmax运算不会改变未规范化的预测o之间的顺序,只会确定分配给每个类别的概率。 因此,在预测过程中,我们仍然可以用下式来选择最有可能的类别。
2、损失函数——交叉熵损失(cross-entropy loss)
更详细推导:
注:交叉熵
交叉熵的意义是衡量两个分布之间的距离。即样本标签值p和模型输出值q之间的距离
问题:为什么在多分类问题中使用交叉熵损失函数而不是均方误差损失函数?
交叉熵的损失函数只和分类正确的预测结果有关系,而MSE的损失函数还和错误的分类有关系,该分类函数除了让正确的分类尽量变大,还会让错误的分类变得平均,但实际在分类问题中这个调整是没有必要的。但是对于回归问题来说,这样的考虑就显得很重要了。所以,回归问题上使用均方误差损失,分类问题上使用交叉熵损失。