手机可以访问的网站怎么做,性价比高的seo网站优化,wordpress新建文章页修改图片样式,动漫设计与制作课程有哪些深度学习——残差网络#xff08;ResNet#xff09; 文章目录 前言一、函数类二、残差块三、ResNet模型四、模型训练五、小结总结 前言
随着设计越来越深的网络#xff0c;深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力#xff0c… 深度学习——残差网络ResNet 文章目录 前言一、函数类二、残差块三、ResNet模型四、模型训练五、小结总结 前言
随着设计越来越深的网络深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力在这种网络中添加层会使网络更具表现力 为了取得质的突破我们需要一些数学基础知识。 本章主要学习残差网络
参考书 《动手学深度学习》 一、函数类 首先假设有一类特定的神经网络架构 F \mathcal{F} F它包括学习速率和其他超参数设置。对于所有 f ∈ F f \in \mathcal{F} f∈F存在一些参数集例如权重和偏置这些参数可以通过在合适的数据集上进行训练而获得。 现在假设 f ∗ f^* f∗是我们真正想要找到的函数如果是 f ∗ ∈ F f^* \in \mathcal{F} f∗∈F那我们可以轻而易举的训练得到它但通常我们不会那么幸运。
相反我们将尝试找到一个函数 f F ∗ f^*_\mathcal{F} fF∗这是我们在 F \mathcal{F} F中的最佳选择。
例如给定一个具有 X \mathbf{X} X特性和 y \mathbf{y} y标签的数据集我们可以尝试通过解决以下优化问题来找到它 f F ∗ : a r g m i n f L ( X , y , f ) subject to f ∈ F . f^*_\mathcal{F} : \mathop{\mathrm{argmin}}_f L(\mathbf{X}, \mathbf{y}, f) \text{ subject to } f \in \mathcal{F}. fF∗:argminfL(X,y,f) subject to f∈F. 那么怎样得到更近似真正 f ∗ f^* f∗的函数呢 唯一合理的可能性是我们需要设计一个更强大的架构 F ′ \mathcal{F} F′。 换句话说我们预计 f F ′ ∗ f^*_{\mathcal{F}} fF′∗比 f F ∗ f^*_{\mathcal{F}} fF∗“更近似”。 然而如果 F ⊈ F ′ \mathcal{F} \not\subseteq \mathcal{F} F⊆F′则无法保证新的体系“更近似”。事实上 f F ′ ∗ f^*_{\mathcal{F}} fF′∗可能更糟
如图中所示对于非嵌套函数类较复杂的函数类并不总是向“真”函数 f ∗ f^* f∗靠拢复杂度由 F 1 \mathcal{F}_1 F1向 F 6 \mathcal{F}_6 F6递增。虽然 F 3 \mathcal{F}_3 F3比 F 1 \mathcal{F}_1 F1更接近 f ∗ f^* f∗但 F 6 \mathcal{F}_6 F6却离的更远了。 相反对于 图中右侧的嵌套函数类 F 1 ⊆ … ⊆ F 6 \mathcal{F}_1 \subseteq \ldots \subseteq \mathcal{F}_6 F1⊆…⊆F6可以避免上述问题。 因此只有当较复杂的函数类包含较小的函数类时我们才能确保提高它们的性能。 对于深度神经网络如果我们能将新添加的层训练成恒等映射 f ( x ) x f(\mathbf{x}) \mathbf{x} f(x)x新模型和原模型将同样有效。 同时由于新模型可能得出更优的解来拟合训练数据集因此添加层似乎更容易降低训练误差。 针对这一问题何恺明等人提出了残差网络ResNet其核心思想是每个附加层都应该更容易地包含原始函数作为其元素之一。 于是残差块residual blocks便诞生了 也就是说在残差块中每个层的输入不仅包含前一层的输出还包含了原始输入。这样做的目的是让网络学习到残差即当前层的输出与原始输入之间的差异。
二、残差块 右图是ResNet的基础架构–残差块。 在残差块中输入可通过跨层数据线路更快地向前传播。 ResNet沿用了VGG完整的 3 × 3 3\times 3 3×3卷积层设计。 残差块里首先有2个有相同输出通道数的 3 × 3 3\times 3 3×3卷积层。 每个卷积层后接一个批量规范化层和ReLU激活函数。 然后我们通过跨层数据通路跳过这2个卷积运算将输入直接加在最后的ReLU激活函数前。 这样的设计要求2个卷积层的输出与输入形状一样从而使它们可以相加。 如果想改变通道数就需要引入一个额外的 1 × 1 1\times 1 1×1卷积层来将输入变换成需要的形状后再做相加运算。 残差块的实现如下 import torch
from torch import nn
from d2l import torch as d2l
from torch.nn import functional as F#残差块的实现
class Residual(nn.Module):def __init__(self,input_channels,num_channels,use_1x1conv False,strides 1):super().__init__()self.conv1 nn.Conv2d(input_channels,num_channels,kernel_size3,padding1,stridestrides)self.conv2 nn.Conv2d(num_channels, num_channels,kernel_size3, padding1)if use_1x1conv:self.conv3 nn.Conv2d(input_channels,num_channels,kernel_size1,stridestrides)else:self.conv3 Noneself.bn1 nn.BatchNorm2d(num_channels)self.bn2 nn.BatchNorm2d(num_channels)def forward(self,X):Y F.relu(self.bn1(self.conv1(X)))Y self.bn2(self.conv2(Y))if self.conv3:X self.conv3(X)Y Xreturn F.relu(Y)#查看输入和输出形状一致的情况
blk Residual(3,3)
X torch.rand(size(4,3,6,6))
Y blk(X)
print(Y.shape)#也可以在增加输出通道数的同时减半输出的高度和宽度
blk Residual(3,6,use_1x1convTrue,strides2)
print(blk(X).shape)
此代码生成两种类型的网络 一种是当use_1x1convFalse时应用ReLU非线性函数之前将输入添加到输出。 另一种是当use_1x1convTrue时添加通过1×1卷积调整通道和分辨率。 三、ResNet模型 ResNet的前两层跟之前介绍的GoogLeNet中的一样 在输出通道数为64、步幅为2的7×7卷积层后接步幅为2的3×3的最大汇聚层。 不同之处在于ResNet每个卷积层后增加了批量规范化层。 GoogLeNet在后面接了4个由Inception块组成的模块。 ResNet则使用4个由残差块组成的模块每个模块使用若干个同样输出通道数的残差块。 ResNet模型
b1 nn.Sequential(nn.Conv2d(1,64,kernel_size7,stride2,padding3),nn.BatchNorm2d(64),nn.ReLU(),nn.MaxPool2d(kernel_size3,stride2,padding1))#注意我们对第一个模块做了特别处理。
def resnet_block(input_channels,num_channels,num_residuals,first_block False):blk []for i in range(num_residuals):if i 0 and not first_block:blk.append(Residual(input_channels,num_channels,use_1x1convTrue,strides2))else:blk.append(Residual(num_residuals,num_channels))return blk#接着在ResNet加入所有残差块这里每个模块使用2个残差块
b2 nn.Sequential(*resnet_block(64,64,2,first_blockTrue))
b3 nn.Sequential(*resnet_block(64,128,2))
b4 nn.Sequential(*resnet_block(128, 256, 2))
b5 nn.Sequential(*resnet_block(256, 512, 2))#最后与GoogLeNet一样在ResNet中加入全局平均汇聚层以及全连接层输出。
net nn.Sequential(b1,b2,b3,b4,b5,nn.AdaptiveAvgPool2d((1,1)),nn.Flatten(),nn.Linear(512,10))#查看每个模块的输出形状
X torch.rand(size(1,1,224,224))
for layer in net:X layer(X)print(layer.__class__.__name__,输出形状为\t,X.shape)四、模型训练
#模型训练
lr,num_epochs,batch_size 0.05,10,256
train_iter,test_iter d2l.load_data_fashion_mnist(batch_size,resize96)
d2l.train_ch6(net,train_iter,test_iter,num_epochs,lr,deviced2l.try_gpu())
d2l.plt.show() 五、小结
学习嵌套函数是训练神经网络的理想情况。在深层神经网络中学习另一层作为恒等映射较容易尽管这是一个极端情况。残差映射可以更容易地学习同一函数例如将权重层中的参数近似为零。利用残差块可以训练出一个有效的深层神经网络输入可以通过层间的残余连接更快地向前传播。 总结
总之残差网络通过残差映射学习到了输入与输出之间的差异通过将输入与输出直接相加实现了信息的跳跃连接通过堆叠多个残差块来构建更深的网络提高了网络的表达能力。
既以为人己愈有既以与人己愈多。
–2023-10-15 进阶篇