惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

C
Comments on: Blog
S
Schneier on Security
Microsoft Azure Blog
Microsoft Azure Blog
T
Tor Project blog
V
Visual Studio Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
月光博客
月光博客
罗磊的独立博客
Cisco Talos Blog
Cisco Talos Blog
P
Privacy International News Feed
T
Tenable Blog
阮一峰的网络日志
阮一峰的网络日志
AWS News Blog
AWS News Blog
T
ThreatConnect
博客园 - 三生石上(FineUI控件)
Recorded Future
Recorded Future
Hugging Face - Blog
Hugging Face - Blog
T
Tailwind CSS Blog
博客园 - 叶小钗
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
A
Arctic Wolf
L
LINUX DO - 最新话题
美团技术团队
大猫的无限游戏
大猫的无限游戏
I
Intezer
博客园 - 司徒正美
酷 壳 – CoolShell
酷 壳 – CoolShell
量子位
小众软件
小众软件
T
Threatpost
V
V2EX
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
宝玉的分享
宝玉的分享
The Register - Security
The Register - Security
Project Zero
Project Zero
J
Java Code Geeks
Cyberwarzone
Cyberwarzone
IT之家
IT之家
MyScale Blog
MyScale Blog
T
Threat Research - Cisco Blogs
T
The Blog of Author Tim Ferriss
腾讯CDC
S
SegmentFault 最新的问题
F
Fox-IT International blog
S
Security Archives - TechRepublic
Last Week in AI
Last Week in AI
G
GRAHAM CLULEY
M
MIT News - Artificial intelligence

Mox的笔记库

细嗦下MLIR的环境搭建 | Mox的笔记库 博客重构:从Hexo到Astro | Mox的笔记库 2026PPoPP MLIR Tutorial学习 | Mox的笔记库 MacOS配置《明日方舟:终末地》 | Mox的笔记库 2025:向内生长 | Mox的笔记库 由mlir::ExecutionEngine引发的跨系统问题 | Mox的笔记库 WSL2配置Cuda-Tile环境记录(未完待续) | Mox的笔记库 Vibe Coding手搓项目记录 | Mox的笔记库 给Debian上包——以DuckDB为例 | Mox的笔记库 UCPD.sys事件存档 | Mox的笔记库 换新电脑之Mac mini M4从购买到配置 | Mox的笔记库 Mac配置MLX-C开发环境 | Mox的笔记库 RISC-V meets RDBMS——RISC-V架构上可运行数据库一览 | Mox的笔记库 DuckDB Sort实现调查 | Mox的笔记库 修复Redis在树莓派5上无法运行的问题 | Mox的笔记库 如何在MLIR中自定义类型并且输出运行 | Mox的笔记库 网站网络结构变更记录 | Mox的笔记库 EDBT25论文阅读:PhoebeDB——A Disk-Based RDBMS Kernel for High-Performance and Cost-Effective OLTP SIGMOD25论文阅读:BPF-DB:——A Kernel-Embedded Transactional Database Management System For eBPF Applications SIGMOD24文章阅读:Query Compilation Without Regrets | Mox的笔记库 论文阅读:Designing an Open Framework for Query Optimization and Compilation Apache Arrow Gandiva项目解析 | Mox的笔记库 VLDB24论文阅读:Cloud-Native Database Systems and Unikernels——Reimagining OS Abstractions for Modern Hardware NoisePage源码分析(未完待续) | Mox的笔记库 VLDB20论文阅读:Mainlining Databases——Supporting Fast Transactional Workloads on Universal Columnar Data File Formats VLDB17论文阅读:Relaxed Operator Fusion for In-Memory Databases:Making Compilation, Vectorization, and Prefetching Work Together At Last 论文阅读:How not to structure your database-backed web applications——a study of performance bugs in the wild SIGMOD24阅读:ROME——Robust Query Optimization via Parallel Multi-Plan Execution 文章阅读:First Past the Post-Evaluating Query Optimization in MongoDB SIGMOD文章阅读:Apache Calcite——A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources VLDB23论文阅读:Analyzing the Impact of Cardinality Estimation on Execution Plans in Microsoft SQL Server SIGMOD22论文阅读:Efficient Massively Parallel Join Optimization for Large Queries VLDB论文阅读:Weaving Relations for Cache Performance VLDB22论文阅读:ConnectorX——Accelerating Data Loading From Databases to Dataframes 论文阅读:UniKraft-Fast, Specialized Unikernels the Easy Way 当DuckDB遇上RISC-V | Mox的笔记库 SIGMOD25论文阅读:An Elephant Under The Microscope——Analyzing The Interaction Of Optimizer Components In PostgreSQL 论文阅读:Compile-Time Analysis of Compiler Frameworks for Query Compilation VLDB23阅读:Bringing Compiling Databases to RISC Architectures LingoDB源码编译与分析 | Mox的笔记库 淦!MLIR输出Hello World不应该这么难! | Mox的笔记库 如何愉快的运行一个MLIR程序 | Mox的笔记库 2024:拥挤年代的想象与创造 | Mox的笔记库 如何给自己的博客添加MLIR和LLVM IR语法高亮 | Mox的笔记库 VLDB19-Parsing Gigabytes of JSON per Second论文阅读 CIDR25:Runtime-Extensible Parsers阅读 | Mox的笔记库 MLIR学习资料整理 | Mox的笔记库 SIGMOD24文章阅读:VeriTxn | Mox的笔记库 VLDB23文章阅读——Exploiting Cloud Object Storage for High-Performance Analytics VLDB24——OLAP on Modern Chiplet-Based Processors走马观花阅读 VLDB22:YeSQL文章阅读(已废弃) | Mox的笔记库 如何让数据库中的Python跑的更快-VLDB22-YeSQL文章阅读 | Mox的笔记库 你好,世界! | Mox的笔记库 让系统研究更有意义:HarmonyOS NEXT的教训和经验——讲座回顾 | Mox的笔记库 UNSW 24T3 COMP9336上课记录 | Mox的笔记库 Velox开发环境配置踩坑记录 | Mox的笔记库 MLIR Toy Tutorial实践记录 | Mox的笔记库 论文阅读:Declarative Sub-Operators for Universal Data Processing LLVM-Kaleidoscope实操踩坑记录 | Mox的笔记库 2024年7月RSSHub开发体验 | Mox的笔记库 澳洲大学计算机硕士比较 | Mox的笔记库 论文阅读——CDUL:CLIP-Driven Unsupervised Learning for Multi-Label Image Classification 论批量快速添加图片与视频水印的事 | Mox的笔记库 基于元信息写入的服务器压力测试 | Mox的笔记库 MjAyMw==,希望,前进与平庸之道 | Mox的笔记库 家庭组网IPv6+Mesh折腾 | Mox的笔记库 code-server初体验 | Mox的笔记库 从Nginx到Caddy | Mox的笔记库 Hexo部署安装全流程回顾 | Mox的笔记库 RMM观察与初探 | Mox的笔记库 计算机网络课设——UDP/TCP/TLS Socket实验 | Mox的笔记库 JQuery的XSS初探 | Mox的笔记库 生产实习记录 | Mox的笔记库 Fedora-CoreOS配置与试用(2023年) | Mox的笔记库 Electron学习笔记 | Mox的笔记库 ServerSentEvent学习 | Mox的笔记库 报告翻译:容器云的安全挑战 | Mox的笔记库 Arch Linux迁移计划 | Mox的笔记库 Vagrant配置Metarget靶场环境 | Mox的笔记库 OpenAI-whisper折腾 | Mox的笔记库 202202,困惑,混乱与未曾设想之路 | Mox的笔记库 2022年Hack the box:Tier1免费区全解 | Mox的笔记库 Navidrome部署记录 | Mox的笔记库 长安杯2021-snake复现 | Mox的笔记库 报告概要翻译:OBFUSCATING C++ PROGRAMS VIA CONTROL FLOW FLATTENING 从零开始的Django CVE-2022-28346复现 | Mox的笔记库 2022CISCN(西北区赛)-The shinning | Mox的笔记库 Docker+QEMU+Arm64(Ubuntu)+环境配置(2022版) | Mox的笔记库 Arch Linux运行树莓派系统(2022年) | Mox的笔记库 2022CISCN初赛-ez_usb-复盘WriteUp | Mox的笔记库 NodeMCU-MicroPython配置实录 | Mox的笔记库 Django事务使用 | Mox的笔记库 记录第一次EduSRC上报 | Mox的笔记库 Jetbrain问题应急处理 | Mox的笔记库 Celery5.2学习&配置 | Mox的笔记库 Waline部署记录 | Mox的笔记库 2021年12月 Vivo千镜杯回顾 | Mox的笔记库 Frida hook初次实战 | Mox的笔记库 Log4j2漏洞复现 | Mox的笔记库 Windows的WSL2+Docker初探 | Mox的笔记库
CVPR2023-CLIP算法调研 | Mox的笔记库
2024-05-15 · via Mox的笔记库

前段时间的工作,今天抽出来整理下

就选中的论文量来看,感觉这个方向上还能再研究个两三年😘

CVPR2023官网:https://openaccess.thecvf.com/CVPR2023

参考资料:CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net)

CLIP2Scene: Towards Label-Efficient 3D Scene Understanding by CLIP

将CLIP从2D图像到3D图像的迁移

Code:https://github.com/runnanchen/CLIP2Scene

Vita-CLIP: Video and Text Adaptive CLIP via Multimodal Prompting

通过Prompt Engineering实现视频分类 image-20240516111036027 Code: https://github.com/TalalWasim/Vita-CLIP

Turning a CLIP Model Into a Scene Text Detector

基于CLIP的场景文字识别(Scene Text Recognition,STR)检测方案,并提出一种名为TCM的方案

知乎:CVPR 2023|白翔团队新作:借助CLIP完成场景文字检测 - 知乎 (zhihu.com)

在中间层把CLIP作为一个Text Decoder image-20240516111058644 Code: https://github.com/wenwenyu/TCM

Revisiting Temporal Modeling for CLIP-Based Image-to-Video Knowledge Transferring

字节跳动与北京大学出品

提出一个 Spatial-Temporal Auxiliary Network (STAN) 的旁支结构

扩展CLIP到视频模块(“a simple and effective temporal modeling mechanism”) 在 Kinetics-400 和 Something-Something-v2 两个视频行为识别 benchmark 上达到SOTA image-20240516111202954 image-20240516111213074 Code: https://github.com/farewellthree/STAN

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce

字节跳动 在文字检索图片(image-to-text),图片检索文字(text-to-image),物品分类(Product Classification),检索物品相关性(Product Retrieval)取得了zero-shot的效果 迁移到物品检测(object detection)上也有不错的效果 image-20240516111224114 没有源码!!

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

CLIP在点云方面的应用

没有源码!!

目标检测

CORA: Adapting CLIP for Open-Vocabulary Detection With Region Prompting and Anchor Pre-Matching

将CLIP用于对象检测任务中的open-vocabulary detection(OVD)

(我的理解:实现CLIP在对象检测的泛化性)

结合了DETR目标检测框架与Prompt Engineer,使用区域分类器 image-20240516111234025 image-20240516111242906 code: GitHub - tgxs002/CORA: A DETR-style framework for open-vocabulary detection (OVD). CVPR 2023

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

港科 x 华为诺亚方舟 x 中山大学

open-vocabulary object detection(OVD任务)

端到端的方式从大量图像-文本对中学习细粒度的单词-区域对齐

知乎:DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment阅读笔记 - 知乎 (zhihu.com) 没有源码!!

图像-语言检索(VLP)

CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not

使用CLIP进行图像检索 image-20240516111303607 image-20240516111312313 Code:https://github.com/aneeshan95/Sketch_LVM

CLIPPING: Distilling CLIP-Based Models With a Student Base for Video-Language Retrieval

华为

知识蒸馏,视频文本检索

没有源码!!

CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model

CLIP用于无监督人群计数 image-20240516111326955 知乎:CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model论文解读(CVPR 2023) - 知乎 (zhihu.com)

Code: https://github.com/dk-liang/CrowdCLIP

Learning Emotion Representations from Verbal and Nonverbal Communication

Code:https://github.com/Xeaver/EmotionCLIP

原文:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_Learning_Emotion_Representations_From_Verbal_and_Nonverbal_Communication_CVPR_2023_paper.pdf

5月29日看到的,提出了一个MotionCLIP,内容就没有细看了

模型训练与调优

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning With Multimodal Models

提出一种cross-modal adaptation的Few-shot微调方法,适用于CLIP

知乎上的分析:CVPR 2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式 - 知乎 (zhihu.com)

Code: https://github.com/linzhiqiu/cross_modal_adaptation

Fine-Tuned CLIP Models Are Efficient Video Learners

CLIP在视频方面的优化 证明CLIP只需微调就能在视频上取得良好性能(感觉是SOTA)

Name (configs)InputBase Acc.Novel Acc.HMModel
CLIP image-FT32x2249.28.58.8seed1/seed2/seed3
CLIP text-FT32x22412.49.510.8seed1/seed2/seed3
ViFi-CLIP32x22416.212.113.9seed1/seed2/seed3

Code: https://github.com/muzairkhattak/ViFi-CLIP

DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training

内存高效的CLIP训练方法 基于OpenAI开源模型改出

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

字节跳动x罗格斯大学 亮点:

  1. 提出了利用共享的离散 token (Finite Discrete Tokens, FDT) 来作为统一粒度的多模态表征,从而加强图片-文本模型的语义对齐

可以改进在图像分类图文检索中语义对齐问题 image-20240516111341975 image-20240516111348376

Code:https://github.com/yuxiaochen1103/FDT

CLIPPO: Image-and-Language Understanding From Pixels Only

一种新架构

把文字转为图片,和图片一起参与卷积(共享一个Transformer模型)

image-20240516111402585 在图像分类和检索上,比原版CLIP有轻微下滑(2%-3%) image-20240516111451605 知乎:CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言 - 知乎 (zhihu.com)

Code(and pretrain model) : https://github.com/google-research/big_vision

图片生成

CoralStyleCLIP: Co-Optimized Region and Layer Selection for Image Editing

基于clip的方法通过在StyleGAN的一个精心挑选的层中引入空间注意力来进行优化改进

没有源码

Shifted Diffusion for Text-to-Image Generation

字节跳动 偏移扩散模型(Shifted Diffusion)在文本生成图像(Text-to-image Generation)任务上的应用 提出一个名为Corgi的模型用于文生图 一大亮点在于:将CLIP纳入Diffusion Process image-20240516111527484 image-20240516111538028 Code:https://github.com/drboog/Shifted_Diffusion

语义分割

Open-Vocabulary Semantic Segmentation With Mask-Adapted CLIP

提出OVseg模型,基于CLIP实现语义分割,从而进行分类识别 研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型 image-20240516111550821 Code: https://github.com/facebookresearch/ov-seg

知乎上的分析:[论文阅读]Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP - 知乎 (zhihu.com)

CSDN上的分析:【计算机视觉 | 语义分割】OVSeg:分割一切后,SAM又能分辨类别了,Meta/UTAustin提出全新开放类分割模型-CSDN博客

ZegCLIP: Towards Adapting CLIP for Zero-Shot Semantic Segmentation

语义分割任务 进行了归纳设置 创新点:

  1. 使用深度提示微调(Deep Prompt Tuning, DPT)代替固定或微调 CLIP 图像编码器。保留Zero-shot能力的同时避免过拟合
  2. 在进行像素级分类时应用非互斥损失(Non-mutually Exclusive Loss, NEL)函数

3:在匹配 CLIP 文本片段嵌入之前,引入关系描述符 (RD) 将图像级先验纳入文本嵌入,可显著防止模型过度拟合所见类别 image-20240516111658890

Deep Prompt Tuning效果图

image-20240516111707794

CSDN讲解:(CVPR,2023)ZegCLIP: 使用CLIP进行单阶段零样本语义分割

Code: https://github.com/ZiqinZhou66/ZegCLIP.git

Side Adapter Network for Open-Vocabulary Semantic Segmentation

提出了一个Sida Adapter Network,实现开放式语义分割(将CLIP作为组件之一) image-20240516111730019 SAN网络图 image-20240516111746559 Prompt Engineering image-20240516111813553 Code:https://github.com/MendelXu/SAN

知乎讲解:CVPR23 Highlight|华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

A Simple Framework for Text-Supervised Semantic Segmentation

字节跳动 x 上海交通大学 x 早稻田大学 本文表明了最基本的图文预训练模型 CLIP 本身就具有文本监督语义分割能力 亮点:

  1. 提出局部对齐(LoDA)
  2. 一个分割框架(Simseg)

image-20240516111836774

image-20240516112139166 Code:https://github.com/muyangyi/SimSeg

WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation

CSDN:深度学习论文: WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation-CSDN博客

没有源码!

结语

没啥好说的,看不懂那不很正常嘛😂

但一直看论文是件非常折磨人的事情,短时间内应该不会再去看了