在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果

本文介绍了在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在使用gnumpy通过在GPU上进行训练神经网络来加速一些计算。我得到了想要的加速比，但我有点担心Numpy(CPU)和gnupy(GPU)结果的差异。

我有以下测试脚本来说明问题：

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

提供输出：

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

如您所见，差值约为10^-5。

所以问题是：我应该担心这些差异，还是这是预期的行为？

其他信息：

GPU：GeForce GTX 770；
NumPy版本：1.6.1

当我使用梯度检查(使用有限差分近似)来验证从NumPy切换到GnuPy时所做的小修改没有破坏任何东西时，我注意到了这个问题。正如人们可能预料的那样，梯度检查不能在32位精度下工作(gnumpy不支持Float64)，但令我惊讶的是，当使用相同精度时，CPU和GPU之间的错误是不同的。

在小型测试神经网络上的CPU和GPU误差如下：

由于误差大小相似，我想这些差异还可以吧？

在阅读了Benc的评论中引用的article之后，我非常确定，其中一个设备使用融合乘加(FMA)指令，另一个设备不使用，可以很好地解释这些差异。

我实现了论文中的示例：

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

...与FMA与串行算法的差异类似(尽管由于某些原因，两种结果与实际结果的差异比论文中的更大)。

我使用的GPU(GeForce GTX 770)支持FMA指令，而CPU不支持(我有一个Ivy Bridge英特尔®至强®CPU E3-1225 V2，但英特尔在他们的Haswell产品中引入了FMA3指令)。

其他可能的解释包括后台使用的不同数学库或操作顺序的差异，例如，CPU和GPU上的并行化程度不同。

推荐答案

我推荐使用np.allclose测试两个Float数组是否接近相等。

虽然您只查看两个结果数组中的值之间的绝对差异，np.allclose也会考虑它们的相对差异。例如，假设您的输入数组中的值是1000倍，那么两个结果之间的绝对差值也将是1000倍，但这并不意味着两个点积的精确度有所降低。

np.allclose仅当两个测试数组中的每个相应元素对a和b满足以下条件时才返回True：

abs(a - b) <= (atol + rtol * abs(b))

默认为rtol=1e-5和atol=1e-8。这些公差是一个很好的"经验法则"，但它们在您的情况下是否足够小将取决于您的特定应用。例如，如果您处理的是值<；1e-8，则1e-8的绝对差值将是一场彻底的灾难！

如果您尝试使用默认公差对两个结果调用np.allclose，您会发现np.allclose返回True。因此，我的猜测是，这些差异可能足够小，不值得担心。这真的取决于你对结果做了什么。

这篇关于在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除！

在CPU(NumPy)和GPU(Gnumpy)上进行矩阵乘法得到不同的结果

问题描述

推荐答案

相关文档推荐