onnxruntime-gpu 预热速度优化

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

Yiwei Zhang · 2024-04-18 · via 又见苍岚

onnxruntime-gpu 在程序启动后第一次推断会消耗较大的系统资源，并且耗时更久，本文记录优化方法。

问题描述

在 Python 下 onnxruntime-gpu 加载 onnx 模型后，创建 seddion 进行数据推断，在第一次执行时会比之后执行耗时更久，需要资源更多。

session = onnxruntime.InferenceSession(str(model_path),  providers=[
                "CUDAExecutionProvider",
                "CPUExecutionProvider"
            ])
session.run(None, inputs)

解决方案

onnxruntime 的官方文档中有一些关于 Provider 的配置项说明：NVIDIA - CUDA | onnxruntime

其中 https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html#cudnn_conv_algo_search

cudnn_conv_algo_search

The type of search done for cuDNN convolution algorithms.

Value	Description
EXHAUSTIVE (0)	expensive exhaustive benchmarking using cudnnFindConvolutionForwardAlgorithmEx
HEURISTIC (1)	lightweight heuristic based search using cudnnGetConvolutionForwardAlgorithm_v7
DEFAULT (2)	default algorithm using CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM

描述了Onnx 优化卷积操作的一个初始化搜索操作，在卷积多，而且 Onnx 需要接受多种可变尺寸输入时耗时严重，该选项默认为 EXHAUSTIVE，就是最耗时的那种。

因此如果遇到上述问题可以考虑尝试将该选项改为 DEFAULT

session = onnxruntime.InferenceSession(str(model_path), opts, providers=[
    ("CUDAExecutionProvider", {"cudnn_conv_algo_search": "DEFAULT"}),
    "CPUExecutionProvider"
])

该选项优化在 Linux 下收益不太大，在 Windows 下可以将初始化预热时间从 500s 缩短到 70s。

其他性能调优

max_workspace

ORT 会使用 CuDNN 库来进行卷积计算，第一步是根据输入的 input shape, filter shape … 来决定使用哪一个卷积算法更好

需要预先分配 workspace，如果 workspace 不够大，有可能还执行不了最优的卷积算法

因此会想让 workspace 尽可能大，从而选择性能较好的卷积算法

1.14 以前的版本 cudnn_conv_use_max_workspace 这个 flag 默认是 0，意味着只会分配 32MB 出来，1.14 之后的版本默认是设置为 1，保证选择到最优的卷积算法，但有可能造成 peak memory usage 提高

官方说法是，fp16 模型，cudnn_conv_use_max_workspace 设置为 1 很重要，floatanddouble 就不一定

需要改的话：

1	`providers = [("CUDAExecutionProvider", {"cudnn_conv_use_max_workspace": '1'})]`

io_binding

可以减少一些数据拷贝（有时是设备间）的耗时。

如果要用这个，需要把 InferenceSession.run() 替换成 InferenceSession.run_with_iobinding()

推理时：

1	`session.run_with_iobinding(binding)`

在此之前需要创建 binding：

1	`binding = session.io_binding()`

把你需要的输入输出绑到 binding 上：

# 输入 X 来自 numpy array
io_binding.bind_cpu_input('X', X)# 输入 X 来自 torch tensor
X_tensor = X.contiguous()
binding.bind_input(
    name='X',
    device_type='cuda',
    device_id=0,
    element_type=np.float32,
    shape=tuple(x_tensor.shape),
    buffer_ptr=x_tensor.data_ptr(),
)
# 让输出直接输出在一个 torch tensor 上
np_type = np.float32
DEVICE_NAME = 'cuda' if torch.cuda.is_available() else 'cpu'
DEVICE_INDEX = 0     # Replace this with the index of the device you want to run on
z_tensor = torch.empty(x_tensor.shape, dtype=torch_type, device=DEVICE).contiguous()
binding.bind_output(
    name='z',
    device_type=DEVICE_NAME,
    device_id=DEVICE_INDEX,
    element_type=np_type,
    shape=tuple(z_tensor.shape),
    buffer_ptr=z_tensor.data_ptr(),
)
# 让输出直接输出在 numpy array 上
binding.bind_output(
)

Convolution Input Padding

卷积被转换成大矩阵乘法时，可以选择 [N, C, D, 1] or [N, C, 1, D] 两种 pad 方式，结果相同，但由于会选择不同的卷积算法，导致性能可能不太一样。

特别是像 A100 这种显卡。

设置方式：

1	`providers = [("CUDAExecutionProvider", {"cudnn_conv1d_pad_to_nc1d": '1'})]`

可以设置 0 和设置 1 都尝试一下，看看哪个更快。

参考资料

https://zhuanlan.zhihu.com/p/686755347

文章链接：
https://www.zywvvd.com/notes/study/deep-learning/deploy/onnxruntime-cuda-speedup/onnxruntime-cuda-speedup/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

问题描述

解决方案

cudnn_conv_algo_search

其他性能调优

max_workspace

io_binding

Convolution Input Padding

参考资料