在上次学习中，我们知道了线性分类的函数是f(x,W),但并没有解释要怎么得到W权重矩阵的值，以及我们要怎么用训练数据来确定它的最优权重矩阵。在之前我们知道，假设用了10种类别的图片用于训练，将其中一种图片输入模型后，会根据W输出每个类别所对应的分数，但是并不是所属的类别分数就一定高，这时我们把这个W作为输入放入一个函数中，由这个函数根据是否图片对应的类别分数最高，来判断W的好坏，也就是能知道这个W距离真正好的W差了多少，我们把这个函数称之为损失函数（cost function），而不断地输入不同的W来找到损失最小的W的过程，就叫做优化过程。

一般会采用一个通用定义 $L=\frac{1}{N}\sum_{}^{}{L_{i}(f(x_{i},W),y_{i})}$ ,x和y就是训练集里的像素点数据和图片的标签，f是损失函数，L是输入N个样本后的平均损失值。在这个图片分类的例子中，采用的是多分类SVM的损失函数，如下图所示：

与二分类的分类函数有点类似，后者是只要计算A的损失值比B类大得多，就认为损失值为0（即为A类），前者只是把所有错误的类别放在了一起（可以理解为B类是一个错误类别的集合），计算过程与其类似。而图中的s_y_i代表的是正确的类别的分数，s_j则代表的是剩余错误的类比的分数和，图像里的意思就是当正确类别的分数，大于错误类比的分数和再加上1，即认为大于这个数值就认为这个图片被正确分类了，1是认为设定的安全边界，可以根据实际情况调整。将图中类别的分数分别带入公式计算得到猫的损失值为2.9，汽车的损失值为0，青蛙损失值为12.9，求得平均值为5.3。

值得注意的是，在训练的过程中，可以先不着急训练完整个模型，而是先输出损失值来判断，假如有C个类别，而输出的结果不是接近于C-1（假设设置边界为1），我们就需要检查一下是否有问题，因为C-1就代表正确类别的分数与错误类别的分数很接近，每个错误类别的损失值都接近于1。

学习来自于斯坦福教程：Stanford University CS231n: Deep Learning for Computer Vision