- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道是否可以在不需要临时数组的情况下通过 Cholesky 分解获得矩阵的逆。截至目前,我可以在不使用临时数组的情况下进行 cholesky 分解,但从那里我还没有想出一种方法来获得原始矩阵的逆矩阵,而无需重复使用与原始矩阵相同维度的临时矩阵。即求解系统
A x_i = e_i, where e_i is the i-th column if the identity matrix.
我实际上遵循了 http://arxiv.org/abs/1111.4144 中描述的稍微好一点的方法
我正在编写一个 (C/C++) CUDA 程序,其中每个线程计算一个相对较小(20x20,在某些情况下为 40x40)协方差矩阵的逆矩阵和行列式,以及其他任务。在 CUDA 中使用数组不是很快,这就是为什么我想尽量减少它们的使用。当我编写就地 cholesky 分解代码并限制仅使用矩阵的较低条目时,我已经看到了一些重大改进,这就是为什么如果我设法摆脱方程求解中的临时数组,我希望会有一些改进部分,即如果算法使用临时变量作为至少更小的数组就可以了。
我知道计算 x = A^{-1} b,
这正是我最后所做的,通过求解系统 A x = b 更有效
比计算逆。但由于我还需要在 Cholesky 分解中获得的行列式,我认为计算倒数会更好。
1 Câu trả lời
我不确定我要说的是否对您有帮助。但是在 CUDA 中访问数组的成本可能是 16 倍,也可能仅为 1 倍。这取决于每个线程的内存安排和访问模式。
对我来说,假设我有 100 个线程,每个线程需要一个大小为 20x20 整数/ float 的矩阵。如果我是,你会毫不犹豫地只使用一个在所有线程之间共享的数组,并且每个线程都会像这样访问第一个元素:
int iFirstElement = gArray[tid]; // where tid is the thread idx assuming this 1D,2D, or 3D I am sure you can calculate the tid easily.
//to access the second element you can use this:
int iSecondElement = gArray[numOfThreads * 1 + tid];
// to access the third element you can use this
int iSecondElement = gArray[numOfThreads * 2 + tid];
这样您将增强内存访问模式并且只消耗 1X 来访问内存而不是 16x。您可能认为全局内存是个坏主意,但请相信我,事实并非如此。您可以返回我发表的关于在 GPU 上进行人脸检测的论文,以阅读有关内存访问模式的更多信息。
../../../media/1Iss8-IJCES0402603_v4_iss2_47-55.pdf
最后,大量使用局部变量会导致调度程序在多个周期内运行该 block ,因为每个 block 的寄存器文件不足以同时运行整个 block 。
关于c++ - 就地 Cholesky 逆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22769237/
我正在开发一种算法,可以求解 Ax= b,其中 A 和 b 已知。 有两种方法可以实现此目的:x= A-1 b 或使用 Cholesky。我知道矩阵始终是方正定矩阵,尽管 det(A) 可能为零。在极
我真的很想评估你们中是否有任何人可以指出我在 Cholesky 分解 方面最优化和计算速度最快的线性代数库。 到目前为止,我一直在使用 Apache Commons Math 库,但也许已经有更强大和
我对 c 相当陌生,想根据维基百科的伪代码实现 cholesky 分解。需要动态分配内存。 我用以下示例矩阵尝试了我的代码: 4.000 2.000 0.000 0.000 2.000 5
double *cholesky(double *A, int n) { double *L = (double*)calloc(n * n, sizeof(double)); if
Tôi muốn biết liệu có thể lấy được ma trận nghịch đảo thông qua phân tích Cholesky mà không cần đến mảng tạm thời hay không. Cho đến bây giờ, tôi có thể thực hiện phân tích cholesky mà không cần sử dụng mảng tạm thời, nhưng từ đó tôi vẫn chưa tìm ra cách để có được nghịch đảo của ma trận gốc
我正尝试在 C++ 中实现 Cholesky 分解,它以前在 lapack dpotrf_ 中实现过. Cholesky 分解:R' * R = A 代码: #include #include l
我正在使用 python 的 scikits.sparse.cholmod 来获取对称矩阵的 cholesky 分解。 我将 cholesky() 的结果与 matlab 的 chol() 进行了比较
我正在开发一些代码,可以从 HW 获取浮点或定点数据。目前我们将其作为 float 。 底层API都是定点的。所以我们必须将数据作为定点传回。我们使用的算法是 Cholesky。我想知道为什么我们必须
我使用 OpenCL 实现了以下 Cholesky 分解算法。该代码表现出随机行为。它仅在某些时候匹配 cpu 输出。有人可以帮我弄清楚我的实现有什么问题吗。 算法如下: procedure CHOL
我对大型稀疏矩阵的 Cholesky 分解很感兴趣。我遇到的问题是 Cholesky 因子不一定是稀疏的(就像两个稀疏矩阵的乘积不一定是稀疏的一样)。 例如,对于仅沿第一行、第一列和对角线具有非零值的
我正在尝试通过 pdpotrf() 进行 Cholesky 分解MKL-Intel 的库,它使用 ScaLAPACK。我正在读取主节点中的整个矩阵,然后像在这个 example 中一样分发它.当 SP
Cholesky Decomposition 有两种不同的形式: A = M * ctranspose (M) 和 LDL 形式 A = L * D * ctranspose (L) 其中 ctran
我想用 Sympy 找到一个符号 Cholesky 分解。矩阵 M(参见示例)是实对称的(因此是埃尔米特矩阵)。但 Sympy 引发 ValueError:矩阵必须是厄米特矩阵。 两个问题: 为什么会
我想使用 Eigen 来计算稀疏矩阵的 cholesky 分解。但是,结果不正确,我找不到原因。我如何获得正确答案? Eigen 中是否实现了特殊例程,利用稀疏矩阵的结构来提高性能(例如,对于下例中的
OpenCV 中是否有任何函数可用于对矩阵应用 Cholesky 分解? 最佳答案 如果仍然相关,OCV 3.0.0 直接通过 HAL 接口(interface)支持 Cholesky。参见 cv::
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 关闭 9 年前。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow
我想获得 tf.cholesky 相对于其输入的梯度。目前,tf.cholesky 没有注册梯度: LookupError: No gradient defined for operation 'Ch
我想知道是否有人可以帮助我调试以下应该计算正定矩阵的上三角 cholesky 分解的 OCaml 代码。 我知道它不是很实用而且很笨重,所以我提前道歉。我在下面给出了一些原因。 不管怎样,这就过去了!
我正在尝试在 Halide 中实现 Cholesky 分解。部分常见算法(例如 crout)由对三角矩阵的迭代组成。在某种程度上,分解的对角线元素是通过从输入矩阵的对角线元素中减去部分列和来计算的。列
谁能给我指出一个库/代码,让我可以在 python (numpy) 中对 Cholesky 分解执行低阶更新?Matlab 将此功能作为称为“cholupdate”的函数提供。LINPACK 也有这个
Tôi là một lập trình viên xuất sắc, rất giỏi!