惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

W
WeLiveSecurity
T
The Exploit Database - CXSecurity.com
C
CXSECURITY Database RSS Feed - CXSecurity.com
S
Security @ Cisco Blogs
T
Threat Research - Cisco Blogs
TaoSecurity Blog
TaoSecurity Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
腾讯CDC
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
T
The Blog of Author Tim Ferriss
Microsoft Azure Blog
Microsoft Azure Blog
罗磊的独立博客
F
Full Disclosure
博客园 - 【当耐特】
C
CERT Recently Published Vulnerability Notes
Engineering at Meta
Engineering at Meta
Application and Cybersecurity Blog
Application and Cybersecurity Blog
T
Threatpost
I
Intezer
V2EX - 技术
V2EX - 技术
H
Hackread – Cybersecurity News, Data Breaches, AI and More
The Hacker News
The Hacker News
小众软件
小众软件
Google DeepMind News
Google DeepMind News
T
Tailwind CSS Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
B
Blog RSS Feed
Microsoft Security Blog
Microsoft Security Blog
N
News | PayPal Newsroom
MyScale Blog
MyScale Blog
AI
AI
Vercel News
Vercel News
Spread Privacy
Spread Privacy
美团技术团队
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
The GitHub Blog
The GitHub Blog
V
Vulnerabilities – Threatpost
Schneier on Security
Schneier on Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
Help Net Security
Help Net Security
Hacker News: Ask HN
Hacker News: Ask HN
Google DeepMind News
Google DeepMind News
MongoDB | Blog
MongoDB | Blog
L
LINUX DO - 热门话题
U
Unit 42
L
LangChain Blog
Recent Announcements
Recent Announcements

CUDA

招聘|外资对冲基金|机器学习工程师 [英伟达] [北京或者上海] [深度学习性能优化-CUDA] - V2EX 训练 SVC 声音模型 2060 12g 和 8G 的 3060TI 哪个快 - V2EX win11 使用 cuda 调用两个 gpu 计算时,自带任务管理器看不到 gpu2 的使用率? - V2EX [cuda 函数劫持] cuda12.2 版本新增了一个函数 cuGetProcAddress_v2,请问如何进行劫持? - V2EX Set Max_split_size_mb To Avoid Oom In Pytorch - V2EX [英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位] - V2EX 如果实现 openmpi 和 cuda 编程的结合 - V2EX 怎么把显卡显存中的 rgba 图像渲染输出? - V2EX 如何实现 CUDA 的分布式并行运算? - V2EX 游戏本上用 cuda 是什么体验? - V2EX Tesla k20m 使用问题 - V2EX CUDA on WSL - V2EX 关于使用 GPU 生成随机数(cuda/opencl) - V2EX DeOldify - V2EX 不死心问一下笔记本 1050 支持 cudnn 吗? - V2EX Python+CUDA,大家有什么推荐的值得深入学习了解的项目或者著作么? - V2EX 写 CUDA,使用专业卡与游戏卡有什么区别? - V2EX 急求推荐个 5k 人民币左右的运算 GPU,能装 ubuntu 就行,跑深度学习用的,必须在 nvidia 运算能力表里面的卡 - V2EX OpenCL/CUDA/云存储求牛人指导,小伙伴们来围观 :) - V2EX 想了想用 WebGL 能不能做科学计算 - V2EX 有人用雷电转 PCI-e 设备外接显卡跑过 CUDA 的么? - V2EX 关于 GPU CUDA 编程的优化问题 - V2EX CPU or GPU? CUDA or OpenCL ? - V2EX
cuda 计算 titan v 为何比 rtx2080ti 更慢? - V2EX
different · 2019-07-06 · via CUDA

指的是双精度。

不知道是不是编译的时候双精度需要添加一些其他指令?

下面是 kernel。

void CSR(int i,unsigned int N, unsigned int *xadj,unsigned int *adjncy, double *dataxx,double *datayy,double *datazz, double *Cspin, double *CHDemag,double *CH)

{

if(i < N)
{
	double dot[3]={0,0,0};
	for(int n = xadj[i] ; n < xadj[i+1]; n++)
	{
		unsigned int neigh=adjncy[n];
		printf("%d\n",n);
		printf("%f,%f,%f\n",dataxx[n],datayy[n],datazz[n]);
		double val[3] = {dataxx[n],datayy[n],datazz[n]};
		for(unsigned int co = 0 ; co < 3 ; co++)
		{
			dot[co]+=(val[co]*Cspin[3*neigh+co]);
		}
	}
	double a=CHDemag[3*i];
	double b=CHDemag[3*i+1];
	double c=CHDemag[3*i+2];
	CH[3*i]=a+dot[0];
	CH[3*i+1]=b+dot[1];
	CH[3*i+2]=c+dot[2];
}

}

通过显卡参数来看,rtx 应该是没有双精度计算单元的。而 titan v 的双精度应该还行。

而我跑的时候,titan v 比 rtx 慢了三分之一。。

求解

第 1 条附言  ·  2019 年 7 月 6 日

__global__ void CSpMV_CSR(unsigned int N,
unsigned int *xadj,unsigned int *adjncy,
double *dataxx,double *datayy,double *datazz,
double *Cspin,
double *CHDemag,double *CH)
{

int i = blockDim.x*blockIdx.x + threadIdx.x;

if(i < N)
{
double dot[3]={0,0,0};
for(int n = xadj[i] ; n < xadj[i+1]; n++)
{
unsigned int neigh=adjncy[n];
double val[3] = {dataxx[n],datayy[n],datazz[n]};
for(unsigned int co = 0 ; co < 3 ; co++)
{
dot[co]+=(val[co]*Cspin[3*neigh+co]);
}
}
CH[3*i]=CHDemag[3*i]+dot[0];
CH[3*i+1]=CHDemag[3*i+1]+dot[1];
CH[3*i+2]=CHDemag[3*i+2]+dot[2];
}
}