在上次学习中,我们知道了线性分类的函数是f(x,W),但并没有解释要怎么得到W权重矩阵的值,以及我们要怎么用训练数据来确定它的最优权重矩阵。在之前我们知道,假设用了10种类别的图片用于训练,将其中一种图片输入模型后,会根据W输出每个类别所对应的分数,但是并不是所属的类别分数就一定高,这时我们把这个W作为输入放入一个函数中,由这个函数根据是否图片对应的类别分数最高,来判断W的好坏,也就是能知道这个W距离真正好的W差了多少,我们把这个函数称之为损失函数(cost function),而不断地输入不同的W来找到损失最小的W的过程,就叫做优化过程。
一般会采用一个通用定义,x和y就是训练集里的像素点数据和图片的标签,f是损失函数,L是输入N个样本后的平均损失值。在这个图片分类的例子中,采用的是多分类SVM的损失函数,如下图所示:
与二分类的分类函数有点类似,后者是只要计算A的损失值比B类大得多,就认为损失值为0(即为A类),前者只是把所有错误的类别放在了一起(可以理解为B类是一个错误类别的集合),计算过程与其类似。而图中的s_y_i代表的是正确的类别的分数,s_j则代表的是剩余错误的类比的分数和,图像里的意思就是当正确类别的分数,大于错误类比的分数和再加上1,即认为大于这个数值就认为这个图片被正确分类了,1是认为设定的安全边界,可以根据实际情况调整。将图中类别的分数分别带入公式计算得到猫的损失值为2.9,汽车的损失值为0,青蛙损失值为12.9,求得平均值为5.3。
值得注意的是,在训练的过程中,可以先不着急训练完整个模型,而是先输出损失值来判断,假如有C个类别,而输出的结果不是接近于C-1(假设设置边界为1),我们就需要检查一下是否有问题,因为C-1就代表正确类别的分数与错误类别的分数很接近,每个错误类别的损失值都接近于1。
学习来自于斯坦福教程:Stanford University CS231n: Deep Learning for Computer Vision