用c写成的软件中的耗时部分函数用cuda代码实现

现在想把一个用c写成的软件中的耗时部分函数用cuda代码实现,但不知怎样作。大家有没有这方面的经验呢?谢谢