c++ - Lập trình bộ nhớ chia sẻ CUDA không hoạt động

Lập trình bộ nhớ chia sẻ CUDA không hoạt động

In lại Tác giả: Walker 123 Thời gian cập nhật: 27-11-2023 23:11:42

hai mươi bốn

tất cả:

Tôi đang tìm hiểu cách bộ nhớ dùng chung tăng tốc quá trình lập trình GPU. Tôi đang sử dụng mã bên dưới để tính giá trị bình phương của từng phần tử cộng với giá trị bình phương của giá trị trung bình của các phần tử lân cận bên trái và bên phải của nó. Khi code chạy thì kết quả không như mong đợi.

10 kết quả đầu tiên được in ra là 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 và kết quả tôi mong đợi là 25, 2, 8, 18, 32, 50, 72,98,128,162;

Mã như sau, được trích dẫnđây ;

Bạn có thể cho tôi biết có chuyện gì không? Cảm ơn bạn rất nhiều vì sự giúp đỡ của bạn.

#include 
#include 
#include 
#include 

const int N=1024;

 __global__ void tính_it(dữ liệu float *)
 {
 int tid = threadIdx.x;
 __shared__ float myblock[N];
 thả nổi tmp;

 // tải phần tử dữ liệu của thread vào bộ nhớ dùng chung
 myblock[tid] = dữ liệu[tid];

 // đảm bảo rằng tất cả các thread đã nạp giá trị của chúng vào
 // bộ nhớ dùng chung; nếu không, một luồng có thể đang tính toán
 // trên dữ liệu được đơn vị hóa.
 __syncthreads();

 // tính trung bình của các hàng xóm bên trái và bên phải của luồng này
 tmp = (myblock[tid>0?tid-1:(N-1)] + myblock[tid<(N-1)?tid+1:0]) * 0,5f;
 // bình phương kết quả trước đó và cộng giá trị của tôi, bình phương
 tmp = tmp*tmp + myblock[tid]*myblock[tid];

 // ghi kết quả trở lại bộ nhớ chung
 dữ liệu[tid] = myblock[tid];
 __syncthreads();
  }

int chính(){

phím char;

nổi *a;
nổi *dev_a;

a = (float*)malloc(N*sizeof(float));
cudaMalloc((void**)&dev_a,N*sizeof(float));

cho (int i=0; i
a[i] = tôi;
}


cudaMemcpy(dev_a, a, N*sizeof(float), cudaMemcpyHostToDevice);

tính_it<<>>(dev_a);

cudaMemcpy(a, dev_a, N*sizeof(float), cudaMemcpyDeviceToHost);


cho (int i=0; i<10; i++){
std::cout<
}

std::cin>>key;

miễn phí (a);
miễn phí (dev_a);

câu trả lời hay nhất

Một trong những câu hỏi đơn giản nhất trong mã hạt nhân là:

dữ liệu[tid] = myblock[tid];

Tôi nghĩ bạn có thể có ý này:

dữ liệu[tid] = tmp;

Ngoài ra, bạn sẽ bắt đầu 1024 khối, một luồng trên mỗi khối. Đây không phải là cách sử dụng GPU đặc biệt hiệu quả, điều đó có nghĩa là trong mỗi khối luồng tin tức Các biến đều bằng 0 (và chỉ 0, vì chỉ có một luồng trên mỗi khối luồng.)

Có nhiều vấn đề với cách tiếp cận này, nhưng đây là một vấn đề đơn giản:

tmp = (myblock[tid>0?tid-1:(N-1)] + myblock[tid<31?tid+1:0]) * 0,5f;

bởi vì tin tức luôn bằng 0, do đó mảng bộ nhớ dùng chung (khối của tôi) được điền vào nên logic ở dòng này không có ý nghĩa. khi tin tức bằng 0, bạn chọn khối của tôi[N-1] như được giao cho tmp của học kỳ đầu tiên, nhưng khối của tôi [1023] Không có gì được lấp đầy.

Có vẻ như bạn không hiểu các hệ thống phân cấp CUDA khác nhau:

Lưới là tất cả các luồng liên quan đến khởi chạy kernel
Lưới bao gồm các khối luồng
Mỗi khối luồng là một nhóm các luồng làm việc cùng nhau trên một SM duy nhất
Tài nguyên bộ nhớ dùng chung đượctài nguyên trên mỗi SM, thay vì tài nguyên trong phạm vi thiết bị
__synthreads() Cũng chạy trên cơ sở khối luồng (không phải phạm vi thiết bị)
threadIdx.x là biến tích hợp cung cấp ID luồng duy nhất cho tất cả các luồng trong khối luồng, nhưng không phải trên toàn bộ lưới.

Thay vào đó, bạn nên chia vấn đề của mình thành các nhóm khối luồng có kích thước hợp lý (nghĩa là nhiều luồng). Sau đó, mỗi khối luồng sẽ có thể chạy gần giống như cách bạn đã vạch ra. Sau đó, bạn cần thực hiện xử lý đặc biệt đối với hành vi của điểm bắt đầu và điểm kết thúc (trong dữ liệu của bạn) của từng khối luồng.

Bạn cũng làm không đúng kiểm tra lỗi cudaĐiều này được khuyến khích, đặc biệt nếu bạn gặp vấn đề với mã CUDA.

Nếu bạn thực hiện các thay đổi trong mã hạt nhân mà tôi đã chỉ ra trước tiên và đảo ngược thứ tự của các tham số khởi động hạt nhân khối và lưới:

tính_it<<<1,N>>>(dev_a);

Như Kristof đã nói, tôi nghĩ bạn sẽ đạt được thứ gì đó gần với những gì bạn muốn. Tuy nhiên, bạn sẽ không thể dễ dàng mở rộng quy mô này vượt quá N=1024 mà không thực hiện các thay đổi khác đối với mã của mình.

Dòng mã này cũng không chính xác:

miễn phí (dev_a);

bởi vì dev_a là sử dụng cudaMalloc được phân bổ trên thiết bị, vì vậy bạn nên giải phóng nó như thế này:

cudaFree (dev_a);

Về c++ - Lập trình bộ nhớ chia sẻ CUDA không hoạt động, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/19864792/

hai mươi bốn

Đề xuất bài viết: html - lưới Bootstrap (hoặc lưới CSS tương thích với IE) cho bố cục đã cho

Đề xuất bài viết: Cách tốt nhất để thực hiện một chuỗi một lần trong C++

Đề xuất bài viết: Trình gỡ lỗi Qt khác với chạy đơn giản

Đề xuất bài viết: javascript — Phản ứng định tuyến lồng nhau không hiển thị thành phần

cuda - Đa hình và các lớp dẫn xuất trong CUDA/CUDA Thrust
Đây là câu hỏi đầu tiên của tôi về Stack Overflow và đây là một câu hỏi dài. Phiên bản tl;dr là: Làm cách nào để sử dụng lực đẩy::device_vector nếu tôi muốn nó lưu trữ các đối tượng thuộc các loại khác nhau DerivedC
cuda - Truy cập bộ nhớ thiết bị cuda trong khi kernel cuda đang chạy
Tôi đã sử dụng cudaMalloc để phân bổ bộ nhớ trên thiết bị và chuyển nó vào hàm kernel. Có thể truy cập bộ nhớ này từ máy chủ trước khi kernel hoàn tất quá trình thực thi không? Câu trả lời hay nhất Cách duy nhất tôi có thể nghĩ ra để khởi động memcpy trong khi kernel vẫn đang thực thi là trên một luồng khác với kernel
tôi có thể biên dịch chương trình cuda mà không cần thiết bị cuda không
Có thể biên dịch chương trình CUDA mà không cần thiết bị hỗ trợ CUDA trên cùng một nút, chỉ sử dụng Bộ công cụ NVIDIA CUDA...? Câu trả lời hay nhấtCâu trả lời cho câu hỏi của bạn là có. Trình điều khiển trình biên dịch nvcc và các đối tượng thiết bị
cuda - Tham số tham khảo trên Cuda
Tôi không biết rằng cuda không hỗ trợ các tham số tham chiếu. Tôi có hai hàm này trong chương trình của mình: __global__ void ExtractDisparityKernel (ExtractDisparity& es)
cuda - Cách sử dụng hằng số dấu phẩy động của máy chủ trong kernel CUDA
Tôi đang sử dụng CUDA 5.0. Tôi nhận thấy rằng trình biên dịch sẽ cho phép tôi sử dụng các hằng số int được khai báo bởi máy chủ trong kernel. Tuy nhiên, nó từ chối biên dịch bất kỳ kernel nào sử dụng hằng số float do máy chủ khai báo. Có ai biết lý do cho sự khác biệt dường như này không? Ví dụ: đoạn mã sau sẽ
cuda - Nhóm hợp tác trong CUDA
Kể từ khi phát hành CUDA 9, rõ ràng là có thể nhóm các luồng và khối khác nhau vào cùng một nhóm để bạn có thể quản lý chúng cùng nhau. Điều này rất hữu ích với tôi vì tôi cần khởi động kernel có nhiều khối và đợi tất cả các khối được hoàn thành.
cuda - Nội suy tam tuyến trong CUDA
Tôi cần thực hiện phép nội suy tam tuyến trong CUDA. Đây là định nghĩa bài toán: Cho ba vectơ điểm: x[nx], y[ny], z[nz] và ma trận giá trị hàm func[nx][ny][nz], tôi muốn Tìm hàm một cách ngẫu nhiên điểm giữa
CUDA có nội tại cho các phép toán vectơ không?
Tôi hình dung vì CUDA có thể thực hiện tải/lưu trữ 128 bit 64 bit nên nó có thể có một số nội dung cơ bản để cộng/trừ/v.v. Các loại vectơ như float3, với ít hướng dẫn hơn như SSE. CUDA có chức năng như vậy không?
cuda - Quét song song trong bộ nhớ dùng chung CUDA
Tôi gặp sự cố khi mỗi khối luồng (1D) phải quét một mảng trong bộ nhớ dùng chung và thực hiện một số tác vụ khác. (Mảng có thể có tới 1024 phần tử.) Có thư viện nào tốt hỗ trợ loại hoạt động này không? Tôi đã kiểm tra lực đẩy và Cu
cuda - Cách hoạt động của các luồng CUDA
Tôi có rất nhiều nghi ngờ về cách các luồng được hình thành và thực thi. Đầu tiên, tài liệu mô tả các luồng GPU là các luồng nhẹ. Giả sử tôi muốn nhân hai ma trận 100*100. Nếu mỗi phần tử được tính toán bằng một luồng khác nhau thì điều này sẽ yêu cầu 100*100 luồng. Nhưng,
cuda - Kích thước bộ nhớ chia sẻ CUDA có nghĩa là gì?
Tôi đang cố gắng tự mình giải quyết vấn đề này nhưng tôi không thể. Vì vậy tôi muốn nghe lời khuyên của bạn. Tôi đang viết mã hạt nhân như thế này. VGA là GTX 580. xxxx >> (... threadNum ...) (lưu ý. Shar
cuda - Hãy để CUDA Thrust sử dụng luồng CUDA mà bạn chọn
Nhìn vào các lần khởi chạy kernel trong mã CUDA Thrust, có vẻ như chúng luôn sử dụng luồng mặc định. Tôi có thể để Thrust sử dụng luồng tôi chọn không? Tôi có thiếu thứ gì đó trong API không? Câu trả lời hay nhất tôi muốn cập nhật sau khi Thrust 1.8 được phát hành
cuda - CUDA có xác định được lịch trình xoắn của CUDA không?
Tôi muốn biết liệu thứ tự lập lịch dọc cho các ứng dụng CUDA có mang tính quyết định hay không. Cụ thể, tôi muốn biết liệu thứ tự thực hiện warp có giữ nguyên khi chạy cùng một kernel nhiều lần trên cùng một thiết bị với cùng một dữ liệu đầu vào hay không. Nếu không thì có điều gì buộc phải thay đổi không?
cuda - Có bao nhiêu lưới trong CUDA
GPU có thể có bao nhiêu lưới CUDA? Hai mắt lưới có thể tồn tại trên GPU cùng một lúc không? Hay một thiết bị GPU chỉ có một lưới? Hạt nhân1>(dst1, param1); Hạt nhân1>(dst2,
cuda - Sức mạnh tính toán của ứng dụng CUDA có được tự động nâng cấp không?
Nếu tôi biên dịch chương trình CUDA có khả năng tính toán thấp hơn, chẳng hạn như 1.3 (cờ nvcc sm_13) và chạy chương trình đó trên thiết bị có Khả năng tính toán 2.1, liệu chương trình đó có tận dụng được Tính năng tính toán 2.1 không
cuda - Bộ nhớ được ghim CUDA có phải là bản sao không?
Bộ nhớ được ghim sẽ cải thiện tốc độ truyền từ máy chủ sang thiết bị (tham khảo api). Nhưng tôi thấy rằng tôi không cần gọi cuMemcpyHtoD để kernel truy cập các giá trị, cũng như cuMemcpyDtoA để máy chủ đọc các giá trị. Tôi không nghĩ cái này sẽ hiệu quả
cuda - CUDA có tự động cân bằng tải cho bạn không?
Tôi đã hy vọng có một số lời khuyên chung và làm rõ về các phương pháp hay nhất để cân bằng tải trong CUDA C, cụ thể là: Nếu 1 luồng trong một sợi dọc mất nhiều thời gian hơn 31 luồng còn lại, liệu nó có ngăn cản 31 luồng còn lại hoàn thành không? Nếu vậy, sức mạnh xử lý vượt quá
cuda - Có sản phẩm chéo và chấm tích hợp nào trong CUDA không?
Có sản phẩm chéo và chấm tích hợp sẵn trong CUDA như opencl, vậy kernel cuda có thể sử dụng được không? Cho đến nay tôi không thể tìm thấy bất cứ điều gì trong thông số kỹ thuật. Câu trả lời hay nhất Bạn có thể tìm thấy những câu trả lời này trong cutil_math.h của SDK
cuda - Bộ nhớ chia sẻ động trong CUDA
Có một số câu hỏi tương tự như những gì tôi đang hỏi, nhưng tôi cảm thấy như không có câu hỏi nào trong số đó đi sâu vào vấn đề cốt lõi mà tôi thực sự đang tìm kiếm. Những gì tôi có bây giờ là một phương thức CUDA yêu cầu hai mảng được xác định trong bộ nhớ dùng chung. Bây giờ kích thước của mảng được đưa ra bởi các biến được đọc vào chương trình sau khi bắt đầu thực thi. Vì vậy,
Các luồng trong CUDA twist có thực thi song song trên nhiều bộ xử lý không?
Sợi dọc là 32 sợi. 32 luồng có thực thi song song trong bộ đa xử lý không? Nếu 32 luồng không thực thi song song thì không có điều kiện chạy đua nào trong sợi dọc. Sau khi xem qua một số ví dụ, tôi có câu hỏi này. Câu trả lời hay nhất là ở mô hình lập trình CUDA, warp

Walker 123

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Lập trình bộ nhớ chia sẻ CUDA không hoạt động