前言 - 魔改工程师

魔改工程师

前言 - 魔改工程师

魔改工程师 · 2026-06-14 · via 魔改工程师

本文提出信息整合注意力（IIA）机制，并将其集成到YOLO26中用于遥感图像语义分割。传统CNN和Transformer方法分别存在难以捕捉全局信息和计算复杂的问题，现有基于Mamba的方法也未充分考虑局部信息。IIA机制利用图像特征空间位置不变性，通过基础信息融合、双方向序列提取和动态权重调制三个核心步骤，以及通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合四个关键操作，实现了轻量与精准的平衡。我们将IIA集成到YOLO26的C3k2模块中。实验表明，改进后的YOLO26在多个数据集上提高了精度，且运行高效。

文章目录： YOLO26改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

介绍

摘要

在遥感图像语义分割领域，基于卷积神经网络（CNNs）和Transformer的方法已得到广泛研究。然而，由于CNN的局部特征提取特性，其难以捕捉全局上下文信息，而Transformer则受限于二次计算的复杂性。近年来，基于Mamba的状态空间模型引发了大量关注。但现有的基于Mamba的方法在遥感图像分割任务中，未能充分考虑局部信息的重要性。本文构建了一种编解码风格的网络UMFormer，用于遥感图像的语义分割。具体而言，UMFormer采用ResNet18作为编码器，旨在进行初步的图像特征提取。随后，对自注意力机制进行优化，以在多尺度条件下提取不同大小目标的全局信息。为了融合编解码器的特征图信息，构建了另一种注意力结构，用于重建空间信息并捕捉相对位置关系。最后，设计了一个基于Mamba的解码器，以有效对全局和局部信息进行建模。同时，设计了一种利用特征相似性的特征融合机制，目的是将局部信息嵌入到全局信息中。在无人机影像数据集（UAVid）、Vaihingen和Potsdam数据集上进行的大量实验表明，所提出的UMFormer在保持高效运行速度的同时，还提高了精度。相关代码将在以下网址免费公开：https://github.com/takeyoutime/UMFormer

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

信息整合注意力（Information Integration Attention, IIA）是一种为解决编码器-解码器架构中特征融合痛点设计的轻量级注意力机制，核心创新围绕“精准保留空间位置信息、高效抑制噪声干扰、平衡精度与计算成本”展开。

一、核心逻辑：基于“空间位置不变性”的双方向动态调制

IIA的核心创新逻辑源于对“图像特征空间位置不变性”的利用——即同一目标在图像中的相对位置关系（如“车辆在道路上”“窗户在建筑立面”）具有稳定性，可通过捕捉这种关系强化有效特征、过滤噪声。其本质是“先融合信息→再分方向提取关键序列→最后动态加权增强” 的三阶段递进式处理，具体逻辑链如下：

基础信息融合：先将编码器的局部特征与解码器的全局特征拼接，形成“多尺度信息池”，确保不丢失原始特征细节；
双方向序列提取：针对特征图的“高度”和“宽度”两个空间维度，分别提取序列信息（类比人类观察图像时“先看上下范围、再看左右范围”），全面捕捉空间位置关联；
动态权重调制：为两个方向的序列信息生成“注意力权重因子”，对目标区域赋予高权重（强化关键特征）、对噪声区域赋予低权重（抑制干扰），最后通过残差融合保留基础信息，输出增强后的特征。

二、关键操作创新：四大环节实现“轻量+精准”的平衡

IIA通过四步核心操作落地上述逻辑，每一步均包含针对性创新，既保证效果又控制计算成本：

1. 特征融合环节：通道级拼接，保留多尺度信息完整性

传统问题：传统特征融合常采用“元素相加”或“简单卷积压缩”，易导致局部细节或全局语义丢失（如相加时高层级特征覆盖低层级特征）；
IIA创新：将编码器输出的局部特征图（如尺寸为C×H×W，C为通道数、H为高度、W为宽度）与解码器输出的全局特征图，按“通道维度”直接拼接，形成新的融合特征图（尺寸为2C×H×W）。这种方式能完整保留两种特征的原始信息，为后续空间位置提取奠定基础，且仅增加通道数、不引入额外计算量。

2. 特征重塑与信息提取环节：双方向拆分+池化组合，精准捕捉空间关系

这是IIA最核心的创新环节之一，通过“拆分维度+双池化”解决传统注意力“全局笼统处理”的缺陷：

步骤1：双方向特征重塑
将融合特征图拆分为两个独立的“方向特征”：
- 聚焦“高度方向”：将特征图重塑为“宽度×通道×高度”（W×C×H）的形态，专门捕捉上下方向的位置关系（如“建筑顶部与底部的相对位置”）；
- 聚焦“宽度方向”：将特征图重塑为“高度×通道×宽度”（H×C×W）的形态，专门捕捉左右方向的位置关系（如“道路左侧与右侧的车辆分布”）。
  这种拆分使注意力不再“全局平均用力”，而是针对两个空间维度分别优化，提升位置信息捕捉精度。
步骤2：双池化提取序列信息
对每个方向的特征图，沿“非目标维度”（高度方向特征沿宽度维度池化、宽度方向特征沿高度维度池化）同时执行平均池化和最大池化：
- 平均池化：提取“全局趋势信息”（如整个高度方向的特征分布规律），避免局部噪声干扰；
- 最大池化：提取“局部显著信息”（如高度方向上的目标峰值特征，如建筑边缘的强响应），突出关键细节。
  两种池化结果拼接后，每个方向的序列信息既包含全局规律、又涵盖局部细节，解决了传统单池化“要么丢全局、要么丢局部”的问题。

3. 注意力调制因子生成环节：轻量级1D卷积，控制计算成本

传统问题：传统注意力（如自注意力）用全连接层生成权重，计算量随特征尺寸呈O(n²)增长；
IIA创新：采用1D卷积（核大小为7） 处理双池化后的序列信息：
- 1D卷积更适配“序列信息”（如高度方向的特征序列），能有效捕捉相邻位置的关联（如“某行特征与上下几行的依赖关系”），且计算量仅为2D卷积的1/H或1/W（H、W为特征图尺寸）；
- 卷积后通过“1D批归一化”稳定训练（避免梯度波动），再用“Sigmoid激活函数”将输出压缩到0-1区间，生成“高度方向调制因子”和“宽度方向调制因子”——因子值越接近1，代表对应位置的特征越重要（如目标区域）；越接近0，代表该位置为噪声或干扰（如背景纹理）。

4. 特征增强与输出环节：残差融合，平衡增强与信息保留

传统问题：传统注意力直接用权重因子加权特征，易丢失原始信息（如权重过小导致有效特征被过度抑制）；
IIA创新：采用“残差融合”策略：
1. 先将高度、宽度方向的调制因子分别与原始融合特征图进行“逐元素相乘”，得到两个方向的“增强特征”（目标区域被放大、噪声被削弱）；
2. 再将这两个增强特征与原始融合特征图进行“逐元素相加”（残差连接），确保既保留原始特征的基础信息，又叠加注意力增强的效果。
  这种方式避免了“过度增强”或“信息丢失”，让输出特征同时具备“精准定位”和“强判别性”。

核心代码

class IIA(nn.Module):
    def __init__(self, channel):
        super(IIA, self).__init__()
        self.attention = AttentionWeight(channel)

    def forward(self, x):
        # b, w, c, h
        x_h = x.permute(0, 3, 1, 2).contiguous()
        x_h = self.attention(x_h).permute(0, 2, 3, 1)
        # b, h, c, w
        x_w = x.permute(0, 2, 1, 3).contiguous()
        x_w = self.attention(x_w).permute(0, 2, 1, 3)
        # b, c, h, w
        # x_c = self.attention(x)

        # return x + 1 / 2 * (x_h + x_w)  # 89.8    92.5    81.9
        return x + x_h + x_w

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
#     修改为自己的配置文件地址
    model = YOLO('./ultralytics/cfg/models/26/yolo26-C3k2_IIA.yaml')
#     修改为自己的数据集地址
    model.train(data='./ultralytics/cfg/datasets/coco8.yaml',
                cache=False,
                imgsz=640,
                epochs=10,
                single_cls=False,  # 是否是单类别检测
                batch=8,
                close_mosaic=10,
                workers=0,
                # optimizer='MuSGD',  
                optimizer='SGD',
                amp=False,
                project='runs/train',
                name='yolo26-C3k2_IIA',
                )

结果

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

魔改工程师

介绍

摘要

文章链接

基本原理

一、核心逻辑：基于“空间位置不变性”的双方向动态调制

二、关键操作创新：四大环节实现“轻量+精准”的平衡

1. 特征融合环节：通道级拼接，保留多尺度信息完整性

2. 特征重塑与信息提取环节：双方向拆分+池化组合，精准捕捉空间关系

3. 注意力调制因子生成环节：轻量级1D卷积，控制计算成本

4. 特征增强与输出环节：残差融合，平衡增强与信息保留

核心代码

实验

脚本

结果