geforce顯卡做長時間的運算會出錯的問題有解嗎?

我個人用過GTX 650、680跟tesla K20

GTX 650是我自己電腦上的卡,有時候做寫程式先測試演算法可行性時會結果會得到nan

而且nan的結果是要重開後才會改善,同樣的程式再重開機後可以得到正確的值所以我猜測演算法無誤

原本我猜測可能我的卡是超頻板的卡調降頻率到公版之後情況可明顯改善但還是會發生

後來我借到公版680裝到工作站上去跑基本上大概做2星期的運算後也會出錯要重開

出錯的話還滿容易知道的因為結果都變成nan不會有算出來其他很奇怪的數字

最後把開發完的演算法拿到K20上去運作從6月中到現在結果看起來都是對的

請問這是因為有ECC mode的差別嗎?geforce長時間計算出錯的問題有解嗎?

將來實驗室還要添購一張卡需要慎重考慮

跟ECC应该有很大关系哦,貌似这种问题还是很普遍,尤其是计算有限元的时候,由于个别点的忽然出错造成整个网格的数据失效。

LZ您好:

一般情况下使用geforce显卡跑的结果是无问题的,但是如同您这样高强度长时间计算我们并未使用geforce卡这样尝试过。建议您使用telsa卡并开启显存ECC。

祝您好运~