本文摘要:前言目录前言1998年:LeNet2012年:AlexNet2014年:VGG2014年:GoogLeNet2015年:Batch Normalization2015年:ResNet2016年:Xception2017年:MobileNet2017年:NASNet2019年:EfficientNet其他2014年:SPPNet2016年:DenseNet2017年:SENet2017年:ShuffleNet2018:Bag of Tricks结论Reference盘算机视觉
前言目录前言1998年:LeNet2012年:AlexNet2014年:VGG2014年:GoogLeNet2015年:Batch Normalization2015年:ResNet2016年:Xception2017年:MobileNet2017年:NASNet2019年:EfficientNet其他2014年:SPPNet2016年:DenseNet2017年:SENet2017年:ShuffleNet2018:Bag of Tricks结论Reference盘算机视觉是将图像和视频转换成机械可明白的信号的主题。使用这些信号,法式员可以基于这种高级明白来进一步控制机械的行为。
在许多盘算机视觉任务中,图像分类是最基本的任务之一。它不仅可以用于许多实际产物中,例如Google Photo的标签和AI内容审核,而且还为许多更高级的视觉任务(例如物体检测和视频明白)打开了一扇门。
自从深度学习的突破以来,由于该领域的快速变化,初学者经常发现它太鸠拙,无法学习。与典型的软件工程学科差别,没有许多关于使用DCNN举行图像分类的书籍,而相识该领域的最佳方法是阅读学术论文。
可是要读什么论文?我从哪说起呢?在本文中,我将先容10篇最佳论文供初学者阅读。通过这些论文,我们可以看到该领域是如何生长的,以及研究人员如何凭据以前的研究结果提出新的想法。可是,纵然您已经在此领域事情了一段时间,对您举行大规模整理仍然很有资助。
本文涉及论文已打包,盘算机视觉同盟 后台回复“9079”获取下载链接1998年:LeNet梯度学习在于文档识别中的应用摘自“ 基于梯度的学习应用于文档识别”LeNet于1998年推出,为使用卷积神经网络举行未来图像分类研究奠基了基础。许多经典的CNN技术(例如池化层,完全毗连的层,填充和激活层)用于提取特征并举行分类。
借助均方误差损失功效和20个训练周期,该网络在MNIST测试集上可以到达99.05%的精度。纵然经由20年,仍然有许多最先进的分类网络总体上遵循这种模式。2012年:AlexNet深度卷积神经网络的ImageNet分类摘自“ 具有深度卷积神经网络的ImageNet分类”只管LeNet取得了不错的结果并显示了CNN的潜力,但由于盘算能力和数据量有限,该领域的生长停滞了十年。
看起来CNN只能解决一些简朴的任务,例如数字识别,可是对于更庞大的特征(如人脸和物体),带有SVM分类器的HarrCascade或SIFT特征提取器是更可取的方法。可是,在2012年ImageNet大规模视觉识别挑战赛中,Alex Krizhevsky提出了基于CNN的解决方案来应对这一挑战,并将ImageNet测试装置的top-5准确性从73.8%大幅提高到84.7%。他们的方法继续了LeNet的多层CNN想法,可是大大增加了CNN的巨细。
从上图可以看到,与LeNet的32x32相比,现在的输入为224x224,与LeNet的6相比,许多卷积内核具有192个通道。只管设计变化不大,但参数变化了数百次,但网络的捕捉和表现庞大特征的能力也提高了数百倍。为了举行大型模型训练,Alex使用了两个具有3GB RAM的GTX 580 GPU,这开创了GPU训练的先河。
同样,使用ReLU非线性也有助于降低盘算成本。除了为网络带来更多参数外,它还通过使用 Dropout层探讨了大型网络带来的过拟合问题。其局部响应归一化方法今后并没有获得太大的普及,可是启发了其他重要的归一化技术(例如BatchNorm)来解决梯度饱和问题。
综上所述,AlexNet界说了未来十年的实际分类网络框架:卷积,ReLu非线性激活,MaxPooling和Dense层的组合。2014年:VGG超深度卷积网络用于大规模图像识别来自Quora“ https://www.quora.com/What-is-the-VGG-neural-network”在使用CNN举行视觉识别方面取得了庞大乐成,整个研究界都大吃一惊,所有人都开始研究为什么这种神经网络能够如此精彩地事情。例如,在2013年揭晓的“可视化和明白卷积网络”中,Matthew Zeiler讨论了CNN如何获取特征并可视化中间表现。
突然之间,每小我私家都开始意识到CNN自2014年以来就是盘算机视觉的未来。在所有直接关注者中,Visual Geometry Group的VGG网络是最吸引眼球的网络。在ImageNet测试仪上,它的top-5准确度到达93.2%,top-1准确度到达了76.3%。遵循AlexNet的设计,VGG网络有两个主要更新:1)VGG不仅使用了像AlexNet这样的更广泛的网络,而且使用了更深的网络。
VGG-19具有19个卷积层,而AlexNet中只有5个。2)VGG还展示了一些小的3x3卷积滤波器可以取代AlexNet的单个7x7甚至11x11滤波器,在降低盘算成本的同时实现更好的性能。由于这种优雅的设计,VGG也成为了其他盘算机视觉任务中许多开拓性网络的主干网络,例如用于语义支解的FCN和用于工具检测的Faster R-CNN。随着网络的深入,从多层反向流传中梯度消失成为一个更大的问题。
为相识决这个问题,VGG还讨论了预训练和权重初始化的重要性。这个问题限制了研究人员继续添加更多的层,否则,网络将很难融合。可是两年后,我们将为此找到更好的解决方案。
2014年:GoogLeNet更深卷积摘自“ Going Deeper with。
本文来源:Bsport体育Bsport体育-www.swtgjwd.com
我要加盟(留言后专人第一时间快速对接)
已有 1826 企业通过我们找到了合作项目