计时器用的不是cuda的事件,用的是其他语言的
运行一个函数,发现延时很大
然后一点一点注释查看哪里延时大
发现只要运行到cudaMalloc哪里延时立马变大了30-40ms
如果后面继续cudaMalloc或者cudaMemcpy,那么延时基本不增加
换一条cuda代码也是如此,为什么只要运行第一条cuda代码延时会上升这么多呢?
有解决办法吗?还是我哪里出问题了?求指教…
有这个概念就好
使用前必须初始化一次,目前我也没找到解决这个问题的办法。
计时器用的不是cuda的事件,用的是其他语言的
运行一个函数,发现延时很大
然后一点一点注释查看哪里延时大
发现只要运行到cudaMalloc哪里延时立马变大了30-40ms
如果后面继续cudaMalloc或者cudaMemcpy,那么延时基本不增加
换一条cuda代码也是如此,为什么只要运行第一条cuda代码延时会上升这么多呢?
有解决办法吗?还是我哪里出问题了?求指教…
有这个概念就好
使用前必须初始化一次,目前我也没找到解决这个问题的办法。