惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Martin Fowler
Martin Fowler
人人都是产品经理
人人都是产品经理
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
A
About on SuperTechFans
GbyAI
GbyAI
酷 壳 – CoolShell
酷 壳 – CoolShell
NISL@THU
NISL@THU
TaoSecurity Blog
TaoSecurity Blog
Project Zero
Project Zero
M
MIT News - Artificial intelligence
Blog — PlanetScale
Blog — PlanetScale
Recorded Future
Recorded Future
Jina AI
Jina AI
H
Help Net Security
大猫的无限游戏
大猫的无限游戏
Scott Helme
Scott Helme
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
罗磊的独立博客
MyScale Blog
MyScale Blog
P
Privacy & Cybersecurity Law Blog
V
Visual Studio Blog
月光博客
月光博客
T
The Blog of Author Tim Ferriss
V
Vulnerabilities – Threatpost
Simon Willison's Weblog
Simon Willison's Weblog
C
Cybersecurity and Infrastructure Security Agency CISA
博客园 - 三生石上(FineUI控件)
F
Fortinet All Blogs
C
Check Point Blog
T
Threat Research - Cisco Blogs
IT之家
IT之家
P
Proofpoint News Feed
Y
Y Combinator Blog
T
Tor Project blog
T
The Exploit Database - CXSecurity.com
腾讯CDC
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
I
InfoQ
T
Troy Hunt's Blog
博客园 - 司徒正美
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - Franky
Hacker News: Ask HN
Hacker News: Ask HN
C
CERT Recently Published Vulnerability Notes
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
博客园 - 聂微东
F
Full Disclosure
宝玉的分享
宝玉的分享
V
V2EX - 技术

魔改工程师

前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLO26改进 – C3k2 C3k2 融合 LSConv (Large-Small Conv) 融合大核感知与小核聚合,提升小目标特征判别力 CVPR 2025 前言 前言 - 魔改工程师 YOLO26改进 – C2PSA C2PSA融合Mona多认知视觉适配器:打破全参数微调的性能枷锁:即插即用的提点神器 CVPR 2025 YOLO26改进 – C2PSA C2PSA融合DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 - 魔改工程师 YOLO26改进 – C2PSA C2PSA融合CPIASA跨范式交互与对齐自注意力机制 交互对齐机制,提升小目标与遮挡目标判别力 ACM MM2025 YOLO26 正式发布源代码!极致速度优化方案, 面向工业级落地的目标检测模型! - 魔改工程师 YOLO26 改进 – 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题 YOLO26 改进 – 注意力机制 轴向注意力Axial Attention(Axial Attention)优化高分辨率特征提取 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 二阶通道注意力SOCA 通过协方差建模与自适应重缩放实现判别性特征增强 YOLO26 改进 – 注意力机制 SCSA注意力通过双重注意力机制增强局部-全局特征交互 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 HaloNet 局部自注意力 (Local Self-Attention) 以分块交互策略实现高效全局上下文建模 YOLO26 改进 – 注意力机制 DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 TMLR 2025 前言 - 魔改工程师 YOLO26 改进 – 注意力机制 CAFM (Convolutional Block Attention Module) 卷积块注意力模块:轻量级设计优化特征提取流程,提升小目标感知 YOLO26 改进 – 注意力机制 ACmix自注意力与卷积混合模型:轻量级设计融合双机制优势,实现高效特征提取与推理加速 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 2026最新YOLO26改进:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总 - 魔改工程师 失灵的键盘 - 魔改工程师 **返回所有加载的AGENTS.md文件ID列表** - 魔改工程师 **资源二分类隔离判定** - 魔改工程师 **统计盈利目标区间** - 魔改工程师 物流仓库货物调货优化 - 魔改工程师 寻找重复子数据 - 魔改工程师 匹配命令行前缀关键字 - 魔改工程师 **魔法阵的能量收集** - 魔改工程师 **链表数字游戏** - 魔改工程师 **企业内部部门的最大层级** - 魔改工程师 前言 YOLOv11 改进 – SPPF模块 替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获 前言 - 魔改工程师 YOLOv11 改进 – SPPF模块 SPPELAN 空间金字塔池化与增强局部注意力:替代SPPF增强多尺度上下文捕获,提升检测精度 YOLOv11 改进 – SPPF模块 AIFI基于注意力的尺度内特征交互:替代SPPF构建高效混合编码器,提升模型综合效能 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-L 替换骨干,破解全局依赖建模难题,实现高效实时检测 YOLOv11 改进 – Mamba 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-B 替换骨干,破解全局依赖建模难题,实现高效实时检测 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 前言 - 魔改工程师 YOLOv11 改进 – C2PSA C2PSA融合DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力 YOLOv11 改进 – C2PSA C2PSA融合CPIASA跨范式交互与对齐自注意力机制(ACM MM2025) 交互对齐机制破解特征融合难题,提升小目标与遮挡目标判别力 麻将基本胡牌型判断 - 魔改工程师 IP地址分类识别 - 魔改工程师 **查找能被整除的最大整数** - 魔改工程师 数据包优先级窗口查找 - 魔改工程师 美观的灯笼 - 魔改工程师 配置操作失败数量统计 - 魔改工程师 计费时段计算 - 魔改工程师 计算数列位置N的值 - 魔改工程师 空间占用计算 - 魔改工程师
前言 - 魔改工程师
魔改工程师 · 2026-06-14 · via 魔改工程师

本文提出了用于低分辨率图像分割的MaskAttn - UNet框架,并将其核心的掩码注意力机制集成到YOLO26中。传统U - Net类模型难以捕捉全局关联,Transformer类模型计算量大,而掩码注意力机制通过可学习的掩码,让模型选择性关注重要区域,融合了卷积的局部效率和注意力的全局视野。其工作流程包括特征适配、掩码生成、定向注意力计算和特征融合。我们将掩码注意力机制代码集成到YOLO26中。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

介绍

image-20251222223212145

摘要

低分辨率图像分割在机器人技术、增强现实和大规模场景理解等实际应用中至关重要。在这些场景中,由于计算资源限制,高分辨率数据往往难以获取。为解决这一挑战,我们提出了一种新颖的分割框架MaskAttn-UNet,它通过掩码注意力机制对传统UNet架构进行了优化。该模型能够选择性地突出重要区域,同时抑制无关背景,从而在杂乱复杂场景中提升分割精度。与传统UNet变体不同,MaskAttn-UNet有效平衡了局部特征提取与全局上下文感知能力,使其特别适用于低分辨率输入场景。我们在三个基准数据集上对该方法进行了评估,所有输入图像均调整为128×128分辨率,结果表明其在语义分割、实例分割和全景分割任务中均展现出具有竞争力的性能。实验结果显示,MaskAttn-UNet的精度可与当前最先进方法媲美,且计算成本远低于基于Transformer的模型,为资源受限场景下的低分辨率图像分割提供了高效且可扩展的解决方案。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

掩码注意力模块是MaskAttn-UNet模型的核心创新组件,核心目标是在低分辨率图像分割场景中,高效平衡“局部细节捕捉”与“全局关联建模”,同时避免传统注意力机制的算力浪费,其原理可从核心设计逻辑、工作流程、关键特性三方面展开:

一、核心设计逻辑

该模块的核心思路是“选择性关注”——不像传统自注意力机制那样对图像中所有像素进行无差别全局计算,也不像纯卷积那样局限于局部区域,而是通过一个“可学习的掩码”(类似智能筛选器),让模型自动聚焦于对分割任务有用的区域(如物体轮廓、关键结构、前景目标),同时抑制无意义的背景噪音或冗余信息。

其设计初衷是解决两大痛点:

  1. 传统U-Net类模型:依赖卷积的局部性,难以捕捉图像中远距离物体的关联(如重叠物体、分散目标的整体特征),导致复杂场景分割模糊;
  2. Transformer类模型:全局自注意力计算量大(像素间两两匹配),内存和算力消耗极高,不适合低分辨率、资源受限的实际场景。

因此,掩码注意力模块本质是“卷积的局部效率”与“注意力的全局视野”的融合——用掩码筛选关键区域,只在有用区域内进行注意力计算,实现“精准且高效”的特征提取。

二、完整工作流程

模块的工作过程可拆解为4个关键步骤,全程围绕“筛选-计算-融合-优化”展开:

  1. 特征格式适配:先接收来自编码器或解码器的特征图(包含图像的局部细节和初步语义信息),并调整其格式,使其适配后续注意力计算的需求;

  2. 掩码生成与筛选:自动学习一个二进制掩码(可理解为一张“关注地图”),地图上的“高亮区域”对应图像中需要重点关注的部分(如物体边缘、前景目标),“暗区”对应无关背景。这个掩码是动态学习的,会根据不同图像、不同场景自适应调整,而非固定规则;

  3. 定向注意力计算:采用多头注意力机制(共4个注意力头,相当于从多个角度捕捉特征),但仅在掩码筛选后的“高亮区域”内计算像素间的关联。比如,对于低分辨率图像中的小物体,掩码会聚焦于该物体的像素范围,让这些像素间相互传递信息,从而强化物体的整体特征,同时忽略背景像素的无效关联;

  4. 特征融合与优化:将注意力计算后的特征,与原始输入的特征通过“残差连接”融合(保留初始的局部细节),再经过两层前馈网络进一步优化特征质量,最终输出“既包含局部精准细节,又融入全局关键关联”的增强特征。

  5. 鲁棒性强:掩码能有效抑制背景噪音,在复杂场景(如 clutter 杂乱环境、重叠物体、光线变化)中,仍能精准区分前景目标与背景,提升分割的稳定性。

核心代码


class Mask2FormerAttention(nn.Module):
    def __init__(self, channels, size):
        super(Mask2FormerAttention, self).__init__()
        self.channels = channels
        self.size = size
        self.query = nn.Linear(channels, channels)
        self.key = nn.Linear(channels, channels)
        self.value = nn.Linear(channels, channels)
        self.mask = None
        self.norm = nn.LayerNorm([channels])
    def forward(self, x):
        batch_size, channels, height, width = x.size()
        if channels != self.channels:
            raise ValueError("Input channel size does not match initialized channel size.")
        x = x.view(batch_size, channels, height * width).permute(0, 2, 1)
        Q = self.query(x)
        K = self.key(x)
        V = self.value(x)
        scores = torch.matmul(Q, K.transpose(-2, -1))
        scores = scores / (self.channels ** 0.5)
        if self.mask is None or self.mask.size(-1) != height * width:
            binary_mask = torch.randint(0, 2, (batch_size, height, width), device=x.device)
            binary_mask = binary_mask.view(batch_size, -1)
            processed_mask = torch.where(binary_mask > 0.5, torch.tensor(0.0, device=x.device), torch.tensor(-float('inf'), device=x.device))
            self.mask = processed_mask.unsqueeze(1).expand(-1, height * width, -1)
        scores = scores + self.mask
        attention_weights = F.softmax(scores, dim=-1)
        attention_output = torch.matmul(attention_weights, V)
        attention_output = attention_output + x
        attention_output = self.norm(attention_output)
        return attention_output.view(batch_size, channels, height, width)

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO

if __name__ == '__main__':
#     修改为自己的配置文件地址
    model = YOLO('./ultralytics/cfg/models/26/yolo26-C2PSA_MaskAttention.yaml')
#     修改为自己的数据集地址
    model.train(data='./ultralytics/cfg/datasets/coco8.yaml',
                cache=False,
                imgsz=640,
                epochs=10,
                single_cls=False,  # 是否是单类别检测
                batch=8,
                close_mosaic=10,
                workers=0,
                optimizer='MuSGD',  
                # optimizer='SGD',
                amp=False,
                project='runs/train',
                name='yolo26-C2PSA_MaskAttention',
                )

结果

image-20260122222311727