【Tengine】推理流程脑图【2】

推荐订阅源

Schneier on Security

The Register - Security

月光博客

freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

Cyber Security Advisories - MS-ISAC

Simon Willison's Weblog

Vulnerabilities – Threatpost

让小产品的独立变现更简单 - ezindie.com

Cybersecurity and Infrastructure Security Agency CISA

Spread Privacy

LINUX DO - 热门话题

The Exploit Database - CXSecurity.com

Palo Alto Networks Blog

cs.CL updates on arXiv.org

Пусть этот камень будет более крепким, чем человек

【琐记】烟火与尘埃【Triton】Triton实现矩阵乘【LLM推理加速】FlashAttention 【LLM推理加速】PagedAttention 【LLM推理加速】Online Softmax LLM基础知识【1】 Transformer模型【AI编译】LayerGroup Tiling Tile的疑惑和思考【AI编译】深度优先的Tile调度，万事大吉？【AI编译】多级流水线Tile调度策略【CUDA C++】GPU内存使用【3】【AI编译】Cache缓存地址映射【CUDA C++】GPU存储【2】【CUDA C++】GPU基本介绍【1】【00】0序章-不受欢迎的来客【转载】我来了——持续低熵【Halide】调度优化【2】【感想】写作进度报告5 【Halide】调度优化【1】【转载】北大中文男足战报2 【BYOC】TVM切分子图【转载】北大中文男足战报1 【AI编译】张量生命周期管理 SystemC 用寄存器同步建模方法【脉动阵列】脉动阵列类型【im2col】AScend conv accelerate 【感想】写作进度报告4 【BYOC】TVM添加自定义编译器 ccompiler 【感想】写作进度报告3 【Tengine】推理流程脑图【1】【NCNN】学习ncnn模型转换【编译器】使用llvm编译自定义语言【3】编译 object 【编译器】使用llvm编译自定义语言【2】转llvm IR 【编译器】使用llvm编译自定义语言【1】构建AST 【AI编译】如何进行内存分配【感想】写作进度报告2 【AI编译】layer-group之后如何tiling 【AI编译】如何进行layer-group 【量化】连续卷积层首尾量化的可行性【Gemm】内存对齐【gemm】Gemm计算加速【TVM】通过代码学习编译流程【5】FuseOps 【TVM】通过代码学习编译流程【6】CodeGen 【TVM】通过代码学习类【3.5】Pass 【TVM】通过代码学习编译流程【4】BuildRelay 【AI编译】Tiling操作能优化什么时间【TVM】通过代码学习编译流程【3】模型编译【TVM】通过代码学习编译流程【2】模型转换【TVM】通过代码学习编译流程【1】必要知识【感想】写作进度报告1 【Winograd】卷积加速算法原理及实现 SystemC 等待异步事件解决方案【TVM】Python脚本实现模型编译和保存【推理引擎】常见AI推理框架【3D建模】T110E3卡迪夫蓝调皮肤模型【TVM】C++部署运行TVM 【推理引擎】NCNN和Tengine量化推理逻辑对比【3D建模】IS-7攻城锤流纹岩皮肤展示【TVM】根据例子走通代码库博客汇总目录【Im2Col】卷积加速算法【2】NHWC 【Im2Col】卷积加速算法【1】 NCHW openBlas库的安装与简单使用 C语言工程调用Cpp库解决方案 foo Hello World

【Tengine】推理流程脑图【2】

Post author: XianMu@Пусть этот камень будет более крепким, чем ч · 2025-04-27 · via Пусть этот камень будет более крепким, чем человек

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

	static int score(struct node_ops* node_ops, struct exec_graph* exec_graph, struct node* exec_node)
	{
	struct node* ir_node = exec_node;
	struct graph* ir_graph = ir_node->graph;
	struct tensor* input_tensor = get_ir_graph_tensor(ir_graph, ir_node->input_tensors[0]);
	struct tensor* output_tensor = get_ir_graph_tensor(ir_graph, ir_node->output_tensors[0]);
	struct conv_param* param = (struct conv_param*)exec_node->op.param_mem;
	int group = param->group;
	int kernel_h = param->kernel_h;
	int kernel_w = param->kernel_w;
	int in_c = input_tensor->dims[1] / group;
	int out_c = output_tensor->dims[1] / group;

	if (input_tensor->data_type != TENGINE_DT_FP32 && input_tensor->data_type != TENGINE_DT_UINT8 && input_tensor->data_type != TENGINE_DT_INT8)
	return 0;

	if (group != 1)
	return 0;

	return OPS_SCORE_PREFER;
	}

	#define OPS_SCORE_STATIC 10000
	#define OPS_SCORE_BEST 8000
	#define OPS_SCORE_PREFER 6000
	#define OPS_SCORE_CANDO 4000
	#define OPS_SCORE_NOTSUP 2000

推荐订阅源

Пусть этот камень будет более крепким, чем человек

# 前言

# 介绍

# 总流程图

# prerun_graph_multithread()

# 1.infer_ir_graph_shape()

# 2.optimizer->split_graph()

# 3.schedule->prerun()

# run_graph()

# postrun_graph()

# destroy_graph()

# 后记

	ret = register_conv_ref_op();
	ret = register_conv_dw_hcl_x86_op();
	ret = register_conv_hcl_x86_op();