在linux写的cuda程序

我在linux写的cuda程序,在第一次使用cudaMalloc时,不管申请多大的内存,显卡实际消耗的内存大约都比申请的多90M左右,而在后面继续调用cudaMalloc时就正常了,这是为什么?这多余的90M是cuda启动时创建上下文消耗的吗?有办法解决吗?90M太多了啊