cuda - 让 CUDA Thrust 使用您选择的 CUDA 流-6ren

cuda - 让 CUDA Thrust 使用您选择的 CUDA 流

In lại 作者：行者123 更新时间：2023-12-04 22:04:45

查看 CUDA Thrust 代码中的内核启动，似乎它们总是使用默认流。我可以让 Thrust 使用我选择的流吗？我在 API 中遗漏了什么吗？

1 Câu trả lời

我想在 Thrust 1.8 发布后更新 talonmies 提供的答案，它引入了将 CUDA 执行流指示为的可能性

thrust::cuda::par.on(stream)

也可以看看

Thrust Release 1.8.0 .

在下面，我将重铸示例

False dependency issue for the Fermi architecture

在 CUDA Thrust API 方面。

#include 

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 

#include 
#include 

#include "Utilities.cuh"

sử dụng không gian tên std;

#define NUM_THREADS 32
#define NUM_BLOCKS 16
#define NUM_STREAMS 3

struct BinaryOp{ __host__ __device__ int operator()(const int& o1,const int& o2) { return o1 * o2; } };

int chính()
{
    const int N = 6000000;

    // --- Host side input data allocation and initialization. Registering host memory as page-locked (required for asynch cudaMemcpyAsync).
    int *h_in = new int[N]; for(int i = 0; i < N; i++) h_in[i] = 5;
    gpuErrchk(cudaHostRegister(h_in, N * sizeof(int), cudaHostRegisterPortable));

    // --- Host side input data allocation and initialization. Registering host memory as page-locked (required for asynch cudaMemcpyAsync).
    int *h_out = new int[N]; for(int i = 0; i < N; i++) h_out[i] = 0;
    gpuErrchk(cudaHostRegister(h_out, N * sizeof(int), cudaHostRegisterPortable));

    // --- Host side check results vector allocation and initialization
    int *h_checkResults = new int[N]; for(int i = 0; i < N; i++) h_checkResults[i] = h_in[i] * h_in[i];

    // --- Device side input data allocation.
    int *d_in = 0; gpuErrchk(cudaMalloc((void **)&d_in, N * sizeof(int)));

    // --- Device side output data allocation. 
    int *d_out = 0; gpuErrchk( cudaMalloc((void **)&d_out, N * sizeof(int)));

    int streamSize = N / NUM_STREAMS;
    size_t streamMemSize = N * sizeof(int) / NUM_STREAMS;

    // --- Set kernel launch configuration
    dim3 nThreads = dim3(NUM_THREADS,1,1);
    dim3 nBlocks = dim3(NUM_BLOCKS, 1,1);
    dim3 subKernelBlock = dim3((int)ceil((float)nBlocks.x / 2));

    // --- Create CUDA streams
    cudaStream_t streams[NUM_STREAMS];
    for(int i = 0; i < NUM_STREAMS; i++)
        gpuErrchk(cudaStreamCreate(&streams[i]));

    /**************************/
    /* BREADTH-FIRST APPROACH */
    /**************************/

    for(int i = 0; i < NUM_STREAMS; i++) {
        int offset = i * streamSize;
        cudaMemcpyAsync(&d_in[offset], &h_in[offset], streamMemSize, cudaMemcpyHostToDevice, streams[i]);
    }

    for(int i = 0; i < NUM_STREAMS; i++)
    {
        int offset = i * streamSize;

        thrust::transform(thrust::cuda::par.on(streams[i]), thrust::device_pointer_cast(&d_in[offset]), thrust::device_pointer_cast(&d_in[offset]) + streamSize/2, 
                                                            thrust::device_pointer_cast(&d_in[offset]), thrust::device_pointer_cast(&d_out[offset]), BinaryOp());
        thrust::transform(thrust::cuda::par.on(streams[i]), thrust::device_pointer_cast(&d_in[offset + streamSize/2]), thrust::device_pointer_cast(&d_in[offset + streamSize/2]) + streamSize/2, 
                                                            thrust::device_pointer_cast(&d_in[offset + streamSize/2]), thrust::device_pointer_cast(&d_out[offset + streamSize/2]), BinaryOp());

    }

    for(int i = 0; i < NUM_STREAMS; i++) {
        int offset = i * streamSize;
        cudaMemcpyAsync(&h_out[offset], &d_out[offset], streamMemSize, cudaMemcpyDeviceToHost, streams[i]);
    }

    for(int i = 0; i < NUM_STREAMS; i++)
        gpuErrchk(cudaStreamSynchronize(streams[i]));

    gpuErrchk(cudaDeviceSynchronize());

    // --- Release resources
    gpuErrchk(cudaHostUnregister(h_in));
    gpuErrchk(cudaHostUnregister(h_out));
    gpuErrchk(cudaFree(d_in));
    gpuErrchk(cudaFree(d_out));

    for(int i = 0; i < NUM_STREAMS; i++)
        gpuErrchk(cudaStreamDestroy(streams[i]));

    cudaDeviceReset();  

    // --- GPU output check
    int sum = 0;
    for(int i = 0; i < N; i++) {     
        //printf("%i %i\n", h_out[i], h_checkResults[i]);
        sum += h_checkResults[i] - h_out[i];
    }

    cout << "Error between CPU and GPU: " << sum << endl;

    delete[] h_in;
    delete[] h_out;
    delete[] h_checkResults;

    trả về 0;
}

Utilities.cu Và Utilities.cuh 运行此类示例所需的文件保存在此 github page .

Visual Profiler 时间线显示了 CUDA Thrust 操作和内存传输的并发性

nhập mô tả hình ảnh ở đây

关于cuda - 让 CUDA Thrust 使用您选择的 CUDA 流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24368197/

Bài viết được đề xuất: svn - 每个客户端的更新

Bài viết được đề xuất: AngularJS - 指令名称中是否可以有下划线？

Bài viết được đề xuất: scala - 在Scala中处理嵌套的可为空对象的惯用方法？

Bài viết được đề xuất: Java Scanner异常处理

Java - Luồng<流> : flatMap so với reduce
Câu hỏi này đã có câu trả lời tại đây: Tại sao filter() sau flatMap() "không hoàn toàn" lười biếng trong luồng Java? (8 câu trả lời) Đã đóng 6
instagram - Có API phát trực tuyến Instagram giống như API phát trực tuyến Twitter không?
Tôi đang tạo một ứng dụng để thu thập dữ liệu từ Instagram. Tôi đang tìm kiếm một API phát trực tuyến như API phát trực tuyến của Twitter để có thể tự động thu thập dữ liệu theo thời gian thực mà không cần gửi yêu cầu. Instagram có API tương tự
InputStream của bạn không phải là luồng OLE2 cũng không phải là luồng OOXML
Tôi đang tải lên tệp .docx trong Google App Engine bằng cách sử dụng Apache Commons như được mô tả trong liên kết này File upload servlet. Trong khi tải lên, tôi cũng muốn sử dụng Apache
Xử lý luồng DynamoDB bằng AWS Java DynamoDB Streams Kinesis Adapter
Tôi đang cố gắng ghi lại những thay đổi trong bảng DynamoDB bằng DynamoDB Streams và Java DynamoDB Streams Kinesis Adapter do AWS cung cấp. Tôi đang sử dụng AWS Java Development Tools trong ứng dụng Scala của mình
Chuyển đổi luồng IP RTSP FFMPEG (H.264) sang luồng RTSP (MPEG-2)
Hiện tại tôi có một camera IP truyền video trực tuyến (RTSP) sử dụng mã hóa H.264. Tôi muốn sử dụng FFmpeg để chuyển đổi luồng mã hóa H.264 này sang luồng RTSP khác nhưng được mã hóa MPEG-2. Tôi có thể làm điều này bằng cách nào? Tôi nên sử dụng cái nào?
Redis Streams trong chế độ cụm
Redis Streams có được hưởng lợi từ chế độ cụm không? Giả sử bạn có 10 luồng, chúng được phân bổ trên toàn cụm hay tất cả đều nằm trên cùng một nút? Tôi dự định sử dụng Redis Streams để đạt được thông lượng thực sự cao (2 triệu tin nhắn/giây), vì vậy tôi lo ngại về hiệu suất của Redis ở quy mô này.
Java Streams - Cách thanh lịch để truyền qua các danh sách có thể null
Vấn đề này đã làm tôi bận tâm một thời gian rồi. Vì vậy, tôi có một lớp Sản phẩm có danh sách Hình ảnh (danh sách đó có thể trống). Tôi muốn thực hiện product.getImages().stream().filter(...) nhưng
Redis Streams với lưu trữ liên tục
Có thể sử dụng luồng Redis với bộ nhớ lưu trữ liên tục hay các luồng bị giới hạn ở dữ liệu trong bộ nhớ? Tôi biết rằng tôi có thể sử dụng Redis với khả năng lưu trữ liên tục các cấu trúc dữ liệu cốt lõi, nhưng tôi chưa hiểu liệu có thể sử dụng khả năng lưu trữ liên tục các luồng trong Redis hay không. Câu trả lời hay nhất
elixir - nhìn trước có thể đếm được/luồng
Tôi đang bắt đầu học Elixir và gặp phải một thử thách mà tôi không thể dễ dàng giải quyết. Tôi đang cố gắng tạo một hàm lấy một Enumerable.T và trả về một Enumerable.T khác với n phần tử tiếp theo. Nó liên quan đến
Scala - luồng readLines
Tôi đang cố gắng tạo một luồng chuỗi vô hạn từ lệnh gọi readLine: import java.io.{BufferedReader, InputStreamReader} val in = new Buffere
Luồng Java 8: Đối với mỗi
Bạn có thể giúp tôi viết đoạn mã sau bằng cách sử dụng Java 8 stream API không? SuperUser superUser = db.getSuperUser; cho (khách hàng cuối cùng khách hàng: siêu
Gợi ý AsyncRead tới tonic::stream
Tôi đang cố gắng sử dụng hướng dẫn bổ sung về routeguide và biến máy khách thành máy chủ rocket. Tôi chỉ lấy phản hồi và chuyển đổi nó thành chuỗi bằng gRPC. dịch vụ RouteGuide { rpc GetF
Luồng - Kiểu có thể không tương thích với kiểu hợp nhất
Mã luồng có thể chạy ở đây. Sử dụng luồng, tôi có một hàm lấy một đối tượng cặp khóa-giá trị và lấy giá trị của nó - giá trị mà nó lấy được phải là một chuỗi, số hoặc bool. loại ValueType = chuỗi
Các luồng, đối tượng theo nghĩa đen và hợp nhất không tương thích
Nếu tôi có một hàm trả về một đối tượng có thông tin cơ sở dữ liệu hoặc một đối tượng rỗng, như thế này: getThingFromDB: async function(id: string): Promise{ const from
facebook - phát trực tuyến. Phát hành ogg
Tôi đang cố gắng xuất bản một tệp âm thanh ogg lên một luồng bằng cách sử dụng api javascript và FB.ui, nhưng tôi không biết cách thực hiện. Đây là lời gọi của tôi tới FB.ui: FB.ui( { method: '
Accurev: Không thể xóa không gian làm việc/luồng
Tôi đang cố xóa một không gian làm việc (hoặc sao chép nó để trông giống như không gian làm việc gốc, nhưng có vẻ như tôi không thể thực hiện được cả hai cách). Tuy nhiên, khi tôi thử, tôi nhận được thông báo này: Không thể xóa không gian làm việc test_workspace vì nó có nhóm mặc định không trống. Theo như tôi biết, điều này có nghĩa là
Có thể sử dụng luồng 'bản đồ' để xử lý như thế này không?
Có thể thực hiện việc này bằng cách sử dụng Stream|Map để tôi không cần phải đưa kết quả vào HashMap bên ngoài mà thay vào đó thu thập kết quả bằng cách sử dụng .collect(Collectors.toMap(...)); không? Bản đồ đại diện
API Luồng Java
Khi chúng ta lấy một Stream từ danh sách các bộ sưu tập, chính xác thì điều gì sẽ xảy ra ở hậu trường? Tôi thấy nhiều blog nói rằng Stream không lưu trữ bất kỳ dữ liệu nào. Nếu điều này đúng, hãy xem xét đoạn mã sau: List list = new ArrayList();
Luồng Java với Danh sách
Tôi mới làm quen với luồng và cách chúng hoạt động và tôi đang cố gắng lấy số lần xuất hiện của một đối tượng cụ thể mà tôi đã thêm vào danh sách. Tôi đã tìm ra cách thực hiện việc này bằng cách sử dụng Collections. Quá trình này như sau: đối với (int i = 0; i p.conten
Luồng Java - Danh sách bản đồ thành Danh sách bản đồ đơn giản
Tôi muốn chuyển đổi một danh sách bản đồ thành một danh sách bản đồ được nhóm lại. Vì vậy, tôi có danh sách bản đồ sau - List[{ "accId":"1", "accName":"TestAcc1", "accNumber

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

cuda - 让 CUDA Thrust 使用您选择的 CUDA 流