【深度学习】AI 中有哪些魔改的特征融合方法?
本文最后更新于:11 天前
深度学习中有哪些魔改的特征融合方法?
在以往的许多工作中,融合不同尺度的特征是提高模型性能的一个重要手段。 众所周知,低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键 ~
FPN(Feature Pyramid Network)
FPN通过构建特征金字塔来提取多个尺度的特征图,然后在不同尺度上进行特征融合。
Feature Pyramid Network(FPN)是一种用于解决多尺度物体检测问题的特征金字塔结构。
它的主要思想是通过多层次的特征融合来生成具有不同分辨率的特征图,从而使得在不同尺度上都可以检测到目标物体。
FPN的构建是在基础网络上进行的,基础网络通常采用的是深度卷积神经网络(DCNN)。
FPN的核心是构建一个自下而上的特征金字塔和一个自上而下的特征传播网络,具体实现如下

- 自下而上的特征金字塔:基于卷积神经网络,在不同的卷积层生成一组具有不同分辨率的特征图。这组特征图包括较高分辨率但语义信息较低的浅层特征(如C1, C2等)和较低分辨率但语义信息较高的深层特征(如C3, C4, C5等)。
- 自上而下的特征传播网络:基于自下而上的特征金字塔,在每个尺度上生成一个额外的特征图,这个特征图包含了上一层的特征图和下一层的高分辨率特征图的融合信息。通过上采样和特征融合等操作,实现将不同尺度的特征图进行有效地融合,从而得到具有不同分辨率和语义信息的特征图。在特征金字塔的顶部,生成的特征图通常是尺度最小的、分辨率最低但语义信息最丰富的特征图。
- 特征融合:通过横向连接和上采样操作,将自下而上和自上而下生成的特征图进行融合,得到一个更加丰富的特征金字塔结构,这个结构包含了不同尺度的特征信息,并能够有效地用于多尺度物体检测。
在多尺度目标检测任务中,FPN的优点在于:
可以在多个尺度上对目标进行检测,提高目标检测的召回率;
能够提取具有不同分辨率和语义信息的特征,从而能够对不同尺度和复杂度的目标进行检测;
具有较高的计算效率和参数效率。
DANetv2
DANetv2是DANet的改进版,引入了两阶段注意力机制。该方法在语义分割任务中取得了较好的效果。
DANetv2是DANet(Dual Attention Network)的改进版本,是一种基于注意力机制的特征融合方法,它通过学习通道和空间权重来选择每个通道和每个空间位置的重要性,从而提高了模型在图像语义分割任务中的性能。

DANetv2引入了两阶段注意力机制,分别是通道注意力和空间注意力。在第一阶段,通道注意力模块对特征图中的每个通道进行自适应加权。它通过学习每个通道的重要性,自适应地调整特征图中每个通道的权重。在第二阶段,空间注意力模块对特征图中的每个像素点进行自适应加权。它根据像素点的位置和特征图的上下文信息,自适应地调整特征图中每个像素点的权重。两个注意力机制的组合能够捕获到图像的全局上下文和局部信息,进一步提升模型的性能。
具体地,DANetv2的通道注意力机制使用全局平均池化来计算每个通道的重要性,将其作为标量门控单元(Scalar Gate Unit)的输入。标量门控单元使用一个sigmoid函数将输入转换为一个[0,1]之间的值,表示通道的重要性。然后,通道注意力机制将每个通道乘以其对应的门控值,得到加权后的特征图。
空间注意力机制使用一个类似于SENet的方法来计算每个像素点的权重。它将每个像素点的特征向量通过一个卷积操作转换为两个向量,一个表示该像素点在通道维度上的相关性,一个表示该像素点在空间维度上的相关性。然后,对于每个像素点,空间注意力机制将通道维度和空间维度的相关性相乘,得到该像素点的综合权重。最后,空间注意力机制将每个像素点乘以其对应的综合权重,得到加权后的特征图。
DANetv2的优点是能够同时捕捉全局上下文和局部信息,避免了只关注全局或只关注局部信息的缺点。在语义分割任务中,DANetv2取得了较好的效果。
关注默子,学习人工智能可以早睡!