深度残差学习
微软亚洲研究院
残差网络很容易训练,并且可以得到很好的精度
深八倍,更低的复杂度
CVPR要求正文数量不能超过八页
怎么让更深的神经网络更容易训练
通过图:在没有加残差层时,34层的网络的误差比18层的高;在加了残差层以后,34层的网络误差比18层的低
读完就可以知道这篇文章的核心,intro是摘要的扩充版本,也是一个对整个工作的描述
网络变深,精度会变差
deep residual learning framework
核心思想:这一层学的结果不是h(x)而是h(x)+x
你的输出不是你的输出,而是你的输出+你的输入
short cut connection
identity mapping
不会加参数,也不会增加模型复杂度
residual
shortcut connection
用同样的东西解决了一个新的问题,和以前的问题有一点不一样
to our best knowledge
学习模型结构
训练精度、测试精度
SGD是慢慢收敛的过程 * 0.1
模型的参数调整也很重要
在所有超参数都一定的情况下,有残差的收敛效果更好
怎么样做更深的resnet:
对特征纬度降一次维,然后做空间维度的东西,最后再回到最初的维度
random crop:随机裁剪
残差连接主要做的事情:如果新加上的层不能让你的模型更好,如果有残差连接的存在,后面的层就不会学到什么东西,所以效果不会变差
在大数据集、小数据、和一个目标检测数据集上分别做了实验
残差连接可以使模型不用过度复杂化,加了残度会让梯度比较大,这样就训练的动
SGD的精髓是让梯度够大,最后的结果会比较好,慢慢地总会收敛
模型复杂度降低,过拟合就不会那么严重,找到一个不那么复杂的模型去拟合数据
这篇文章提出了一个更简单的方法来训练更深的模型
理论和实验二选其一,只要有一个亮点,就蛮好的
只要文章是有启发性的东西的,就可以算一个好东西