cuda 计算 titan v 为何比 rtx2080ti 更慢？ - V2EX

推荐订阅源

TaoSecurity Blog

Recent Commits to openclaw:main

cs.AI updates on arXiv.org

腾

腾讯CDC

Exploit-DB.com RSS Feed

OSCHINA 社区最新新闻

The Blog of Author Tim Ferriss

CERT Recently Published Vulnerability Notes

Engineering at Meta

Application and Cybersecurity Blog

Threatpost

Intezer

V2EX - 技术

Hackread – Cybersecurity News, Data Breaches, AI and More

The Hacker News

小众软件

Google DeepMind News

Tailwind CSS Blog

Darknet – Hacking Tools, Hacker News & Cyber Security

Blog RSS Feed

Microsoft Security Blog

News | PayPal Newsroom

CTFtime.org: upcoming CTF events

The GitHub Blog

Vulnerabilities – Threatpost

CUDA

招聘|外资对冲基金|机器学习工程师 [英伟达] [北京或者上海] [深度学习性能优化-CUDA] - V2EX 训练 SVC 声音模型 2060 12g 和 8G 的 3060TI 哪个快 - V2EX win11 使用 cuda 调用两个 gpu 计算时，自带任务管理器看不到 gpu2 的使用率？ - V2EX [cuda 函数劫持] cuda12.2 版本新增了一个函数 cuGetProcAddress_v2，请问如何进行劫持？ - V2EX Set Max_split_size_mb To Avoid Oom In Pytorch - V2EX [英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位] - V2EX 如果实现 openmpi 和 cuda 编程的结合 - V2EX 怎么把显卡显存中的 rgba 图像渲染输出？ - V2EX 如何实现 CUDA 的分布式并行运算？ - V2EX 游戏本上用 cuda 是什么体验？ - V2EX Tesla k20m 使用问题 - V2EX CUDA on WSL - V2EX 关于使用 GPU 生成随机数（cuda/opencl） - V2EX DeOldify - V2EX 不死心问一下笔记本 1050 支持 cudnn 吗？ - V2EX Python+CUDA，大家有什么推荐的值得深入学习了解的项目或者著作么？ - V2EX 写 CUDA，使用专业卡与游戏卡有什么区别？ - V2EX 急求推荐个 5k 人民币左右的运算 GPU，能装 ubuntu 就行，跑深度学习用的，必须在 nvidia 运算能力表里面的卡 - V2EX OpenCL/CUDA/云存储求牛人指导，小伙伴们来围观：） - V2EX 想了想用 WebGL 能不能做科学计算 - V2EX 有人用雷电转 PCI-e 设备外接显卡跑过 CUDA 的么？ - V2EX 关于 GPU CUDA 编程的优化问题 - V2EX CPU or GPU? CUDA or OpenCL ? - V2EX

cuda 计算 titan v 为何比 rtx2080ti 更慢？ - V2EX

different · 2019-07-06 · via CUDA

指的是双精度。

不知道是不是编译的时候双精度需要添加一些其他指令？

下面是 kernel。

void CSR(int i,unsigned int N, unsigned int *xadj,unsigned int *adjncy, double *dataxx,double *datayy,double *datazz, double *Cspin, double *CHDemag,double *CH)

{

if(i < N)
{
	double dot[3]={0,0,0};
	for(int n = xadj[i] ; n < xadj[i+1]; n++)
	{
		unsigned int neigh=adjncy[n];
		printf("%d\n",n);
		printf("%f,%f,%f\n",dataxx[n],datayy[n],datazz[n]);
		double val[3] = {dataxx[n],datayy[n],datazz[n]};
		for(unsigned int co = 0 ; co < 3 ; co++)
		{
			dot[co]+=(val[co]*Cspin[3*neigh+co]);
		}
	}
	double a=CHDemag[3*i];
	double b=CHDemag[3*i+1];
	double c=CHDemag[3*i+2];
	CH[3*i]=a+dot[0];
	CH[3*i+1]=b+dot[1];
	CH[3*i+2]=c+dot[2];
}

}

通过显卡参数来看，rtx 应该是没有双精度计算单元的。而 titan v 的双精度应该还行。

而我跑的时候，titan v 比 rtx 慢了三分之一。。

求解

第 1 条附言 · 2019 年 7 月 6 日

__global__ void CSpMV_CSR(unsigned int N,
unsigned int *xadj,unsigned int *adjncy,
double *dataxx,double *datayy,double *datazz,
double *Cspin,
double *CHDemag,double *CH)
{

int i = blockDim.x*blockIdx.x + threadIdx.x;

if(i < N)
{
double dot[3]={0,0,0};
for(int n = xadj[i] ; n < xadj[i+1]; n++)
{
unsigned int neigh=adjncy[n];
double val[3] = {dataxx[n],datayy[n],datazz[n]};
for(unsigned int co = 0 ; co < 3 ; co++)
{
dot[co]+=(val[co]*Cspin[3*neigh+co]);
}
}
CH[3*i]=CHDemag[3*i]+dot[0];
CH[3*i+1]=CHDemag[3*i+1]+dot[1];
CH[3*i+2]=CHDemag[3*i+2]+dot[2];
}
}

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。