惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Martin Fowler
Martin Fowler
人人都是产品经理
人人都是产品经理
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
A
About on SuperTechFans
GbyAI
GbyAI
酷 壳 – CoolShell
酷 壳 – CoolShell
NISL@THU
NISL@THU
TaoSecurity Blog
TaoSecurity Blog
Project Zero
Project Zero
M
MIT News - Artificial intelligence
Blog — PlanetScale
Blog — PlanetScale
Recorded Future
Recorded Future
Jina AI
Jina AI
H
Help Net Security
大猫的无限游戏
大猫的无限游戏
Scott Helme
Scott Helme
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
罗磊的独立博客
MyScale Blog
MyScale Blog
P
Privacy & Cybersecurity Law Blog
V
Visual Studio Blog
月光博客
月光博客
T
The Blog of Author Tim Ferriss
V
Vulnerabilities – Threatpost
Simon Willison's Weblog
Simon Willison's Weblog
C
Cybersecurity and Infrastructure Security Agency CISA
博客园 - 三生石上(FineUI控件)
F
Fortinet All Blogs
C
Check Point Blog
T
Threat Research - Cisco Blogs
IT之家
IT之家
P
Proofpoint News Feed
Y
Y Combinator Blog
T
Tor Project blog
T
The Exploit Database - CXSecurity.com
腾讯CDC
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
I
InfoQ
T
Troy Hunt's Blog
博客园 - 司徒正美
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - Franky
Hacker News: Ask HN
Hacker News: Ask HN
C
CERT Recently Published Vulnerability Notes
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
博客园 - 聂微东
F
Full Disclosure
宝玉的分享
宝玉的分享
V
V2EX - 技术

魔改工程师

前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLO26改进 – C3k2 C3k2 融合 LSConv (Large-Small Conv) 融合大核感知与小核聚合,提升小目标特征判别力 CVPR 2025 前言 前言 - 魔改工程师 YOLO26改进 – C2PSA C2PSA融合Mona多认知视觉适配器:打破全参数微调的性能枷锁:即插即用的提点神器 CVPR 2025 前言 - 魔改工程师 YOLO26改进 – C2PSA C2PSA融合DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 - 魔改工程师 YOLO26改进 – C2PSA C2PSA融合CPIASA跨范式交互与对齐自注意力机制 交互对齐机制,提升小目标与遮挡目标判别力 ACM MM2025 YOLO26 正式发布源代码!极致速度优化方案, 面向工业级落地的目标检测模型! - 魔改工程师 YOLO26 改进 – 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题 YOLO26 改进 – 注意力机制 轴向注意力Axial Attention(Axial Attention)优化高分辨率特征提取 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 二阶通道注意力SOCA 通过协方差建模与自适应重缩放实现判别性特征增强 YOLO26 改进 – 注意力机制 SCSA注意力通过双重注意力机制增强局部-全局特征交互 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 HaloNet 局部自注意力 (Local Self-Attention) 以分块交互策略实现高效全局上下文建模 YOLO26 改进 – 注意力机制 DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 TMLR 2025 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 CAFM (Convolutional Block Attention Module) 卷积块注意力模块:轻量级设计优化特征提取流程,提升小目标感知 YOLO26 改进 – 注意力机制 ACmix自注意力与卷积混合模型:轻量级设计融合双机制优势,实现高效特征提取与推理加速 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 2026最新YOLO26改进:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总 - 魔改工程师 失灵的键盘 - 魔改工程师 **返回所有加载的AGENTS.md文件ID列表** - 魔改工程师 **资源二分类隔离判定** - 魔改工程师 **统计盈利目标区间** - 魔改工程师 物流仓库货物调货优化 - 魔改工程师 寻找重复子数据 - 魔改工程师 匹配命令行前缀关键字 - 魔改工程师 **魔法阵的能量收集** - 魔改工程师 **链表数字游戏** - 魔改工程师 **企业内部部门的最大层级** - 魔改工程师 前言 YOLOv11 改进 – SPPF模块 替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获 前言 - 魔改工程师 YOLOv11 改进 – SPPF模块 SPPELAN 空间金字塔池化与增强局部注意力:替代SPPF增强多尺度上下文捕获,提升检测精度 YOLOv11 改进 – SPPF模块 AIFI基于注意力的尺度内特征交互:替代SPPF构建高效混合编码器,提升模型综合效能 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-L 替换骨干,破解全局依赖建模难题,实现高效实时检测 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-B 替换骨干,破解全局依赖建模难题,实现高效实时检测 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLOv11 改进 – C2PSA C2PSA融合DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 YOLOv11 改进 – C2PSA C2PSA融合CPIASA跨范式交互与对齐自注意力机制(ACM MM2025) 交互对齐机制破解特征融合难题,提升小目标与遮挡目标判别力 麻将基本胡牌型判断 - 魔改工程师 IP地址分类识别 - 魔改工程师 **查找能被整除的最大整数** - 魔改工程师 数据包优先级窗口查找 - 魔改工程师 美观的灯笼 - 魔改工程师 配置操作失败数量统计 - 魔改工程师 计费时段计算 - 魔改工程师 计算数列位置N的值 - 魔改工程师 空间占用计算 - 魔改工程师
前言 - 魔改工程师
魔改工程师 · 2026-06-14 · via 魔改工程师

本文提出信息整合注意力(IIA)机制,并将其集成到YOLO26中用于遥感图像语义分割。传统CNN和Transformer方法分别存在难以捕捉全局信息和计算复杂的问题,现有基于Mamba的方法也未充分考虑局部信息。IIA机制利用图像特征空间位置不变性,通过基础信息融合、双方向序列提取和动态权重调制三个核心步骤,以及通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合四个关键操作,实现了轻量与精准的平衡。我们将IIA集成到YOLO26的C3k2模块中。实验表明,改进后的YOLO26在多个数据集上提高了精度,且运行高效。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

介绍

image-20251223215226508

摘要

在遥感图像语义分割领域,基于卷积神经网络(CNNs)和Transformer的方法已得到广泛研究。然而,由于CNN的局部特征提取特性,其难以捕捉全局上下文信息,而Transformer则受限于二次计算的复杂性。近年来,基于Mamba的状态空间模型引发了大量关注。但现有的基于Mamba的方法在遥感图像分割任务中,未能充分考虑局部信息的重要性。本文构建了一种编解码风格的网络UMFormer,用于遥感图像的语义分割。具体而言,UMFormer采用ResNet18作为编码器,旨在进行初步的图像特征提取。随后,对自注意力机制进行优化,以在多尺度条件下提取不同大小目标的全局信息。为了融合编解码器的特征图信息,构建了另一种注意力结构,用于重建空间信息并捕捉相对位置关系。最后,设计了一个基于Mamba的解码器,以有效对全局和局部信息进行建模。同时,设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在无人机影像数据集(UAVid)、Vaihingen和Potsdam数据集上进行的大量实验表明,所提出的UMFormer在保持高效运行速度的同时,还提高了精度。相关代码将在以下网址免费公开:https://github.com/takeyoutime/UMFormer

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

信息整合注意力(Information Integration Attention, IIA)是一种为解决编码器-解码器架构中特征融合痛点设计的轻量级注意力机制,核心创新围绕“精准保留空间位置信息、高效抑制噪声干扰、平衡精度与计算成本”展开。

一、核心逻辑:基于“空间位置不变性”的双方向动态调制

IIA的核心创新逻辑源于对“图像特征空间位置不变性”的利用——即同一目标在图像中的相对位置关系(如“车辆在道路上”“窗户在建筑立面”)具有稳定性,可通过捕捉这种关系强化有效特征、过滤噪声。其本质是“先融合信息→再分方向提取关键序列→最后动态加权增强” 的三阶段递进式处理,具体逻辑链如下:

  1. 基础信息融合:先将编码器的局部特征与解码器的全局特征拼接,形成“多尺度信息池”,确保不丢失原始特征细节;
  2. 双方向序列提取:针对特征图的“高度”和“宽度”两个空间维度,分别提取序列信息(类比人类观察图像时“先看上下范围、再看左右范围”),全面捕捉空间位置关联;
  3. 动态权重调制:为两个方向的序列信息生成“注意力权重因子”,对目标区域赋予高权重(强化关键特征)、对噪声区域赋予低权重(抑制干扰),最后通过残差融合保留基础信息,输出增强后的特征。

二、关键操作创新:四大环节实现“轻量+精准”的平衡

IIA通过四步核心操作落地上述逻辑,每一步均包含针对性创新,既保证效果又控制计算成本:

1. 特征融合环节:通道级拼接,保留多尺度信息完整性

  • 传统问题:传统特征融合常采用“元素相加”或“简单卷积压缩”,易导致局部细节或全局语义丢失(如相加时高层级特征覆盖低层级特征);
  • IIA创新:将编码器输出的局部特征图(如尺寸为C×H×W,C为通道数、H为高度、W为宽度)与解码器输出的全局特征图,按“通道维度”直接拼接,形成新的融合特征图(尺寸为2C×H×W)。这种方式能完整保留两种特征的原始信息,为后续空间位置提取奠定基础,且仅增加通道数、不引入额外计算量。

2. 特征重塑与信息提取环节:双方向拆分+池化组合,精准捕捉空间关系

这是IIA最核心的创新环节之一,通过“拆分维度+双池化”解决传统注意力“全局笼统处理”的缺陷:

  • 步骤1:双方向特征重塑
    将融合特征图拆分为两个独立的“方向特征”:

    • 聚焦“高度方向”:将特征图重塑为“宽度×通道×高度”(W×C×H)的形态,专门捕捉上下方向的位置关系(如“建筑顶部与底部的相对位置”);
    • 聚焦“宽度方向”:将特征图重塑为“高度×通道×宽度”(H×C×W)的形态,专门捕捉左右方向的位置关系(如“道路左侧与右侧的车辆分布”)。
      这种拆分使注意力不再“全局平均用力”,而是针对两个空间维度分别优化,提升位置信息捕捉精度。
  • 步骤2:双池化提取序列信息
    对每个方向的特征图,沿“非目标维度”(高度方向特征沿宽度维度池化、宽度方向特征沿高度维度池化)同时执行平均池化最大池化

    • 平均池化:提取“全局趋势信息”(如整个高度方向的特征分布规律),避免局部噪声干扰;
    • 最大池化:提取“局部显著信息”(如高度方向上的目标峰值特征,如建筑边缘的强响应),突出关键细节。
      两种池化结果拼接后,每个方向的序列信息既包含全局规律、又涵盖局部细节,解决了传统单池化“要么丢全局、要么丢局部”的问题。

3. 注意力调制因子生成环节:轻量级1D卷积,控制计算成本

  • 传统问题:传统注意力(如自注意力)用全连接层生成权重,计算量随特征尺寸呈O(n²)增长;
  • IIA创新:采用1D卷积(核大小为7) 处理双池化后的序列信息:
    • 1D卷积更适配“序列信息”(如高度方向的特征序列),能有效捕捉相邻位置的关联(如“某行特征与上下几行的依赖关系”),且计算量仅为2D卷积的1/H或1/W(H、W为特征图尺寸);
    • 卷积后通过“1D批归一化”稳定训练(避免梯度波动),再用“Sigmoid激活函数”将输出压缩到0-1区间,生成“高度方向调制因子”和“宽度方向调制因子”——因子值越接近1,代表对应位置的特征越重要(如目标区域);越接近0,代表该位置为噪声或干扰(如背景纹理)。

4. 特征增强与输出环节:残差融合,平衡增强与信息保留

  • 传统问题:传统注意力直接用权重因子加权特征,易丢失原始信息(如权重过小导致有效特征被过度抑制);
  • IIA创新:采用“残差融合”策略:
    1. 先将高度、宽度方向的调制因子分别与原始融合特征图进行“逐元素相乘”,得到两个方向的“增强特征”(目标区域被放大、噪声被削弱);
    2. 再将这两个增强特征与原始融合特征图进行“逐元素相加”(残差连接),确保既保留原始特征的基础信息,又叠加注意力增强的效果。
      这种方式避免了“过度增强”或“信息丢失”,让输出特征同时具备“精准定位”和“强判别性”。

核心代码

class IIA(nn.Module):
    def __init__(self, channel):
        super(IIA, self).__init__()
        self.attention = AttentionWeight(channel)

    def forward(self, x):
        # b, w, c, h
        x_h = x.permute(0, 3, 1, 2).contiguous()
        x_h = self.attention(x_h).permute(0, 2, 3, 1)
        # b, h, c, w
        x_w = x.permute(0, 2, 1, 3).contiguous()
        x_w = self.attention(x_w).permute(0, 2, 1, 3)
        # b, c, h, w
        # x_c = self.attention(x)

        # return x + 1 / 2 * (x_h + x_w)  # 89.8    92.5    81.9
        return x + x_h + x_w

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
#     修改为自己的配置文件地址
    model = YOLO('./ultralytics/cfg/models/26/yolo26-C3k2_IIA.yaml')
#     修改为自己的数据集地址
    model.train(data='./ultralytics/cfg/datasets/coco8.yaml',
                cache=False,
                imgsz=640,
                epochs=10,
                single_cls=False,  # 是否是单类别检测
                batch=8,
                close_mosaic=10,
                workers=0,
                # optimizer='MuSGD',  
                optimizer='SGD',
                amp=False,
                project='runs/train',
                name='yolo26-C3k2_IIA',
                )

结果

image-20260124113249362