openmp - 如何统计测量程序中的 OpenMP 性能？-6ren

openmp - 如何统计测量程序中的 OpenMP 性能？

In lại 作者：行者123 更新时间：2023-12-03 18:15:50

我想统计测量与 OpenMP 并行化的程序的性能。我选择在执行并行算法的测试应用程序中编写循环 MAX_EXPERIMENTS次并将时间测量报告到文件中。

问题解决方案似乎比提取外部循环上方的并行编译指示更复杂，因为我在内部并行循环之间有代码的串行部分。

编码:

#include 
#include  
#include 
#include 
#include 
#include 
#include 
#include 

sử dụng không gian tên std;

int chính()
{
    const int MAX_NUMBERS = 1e07; 
    const int MAX_EXPERIMENTS = 1e02; 

    std::random_device rd;  
    std::mt19937 gen(rd()); 
    std::bernoulli_distribution dis(0.1);

    vector numbers;
    numbers.reserve(MAX_NUMBERS); 

    for(unsigned int i = 0; i < MAX_NUMBERS; ++i)
    {
        if (dis(gen))
            numbers.emplace_back(100); 
        khác 
            numbers.emplace_back(1);
    }

    stringstream ss; 
    ss << "time-measurements-nthread-" << setfill('0') << setw(2) 
        << omp_get_max_threads() << ".csv"; 

    ofstream exp(ss.str()); 
    exp << "time\n"; 

    for (unsigned int i = 0; i < MAX_EXPERIMENTS; ++i)
    {
        // BEGIN: Tested parallel program
        double t0 = omp_get_wtime();  

        // Some serial work.

        double x = 0; 
        //#pragma omp parallel for schedule(dynamic) reduction(+:x) // exp-01
        #pragma omp parallel for schedule(static) reduction(+:x) // exp-02
        for(unsigned int i = 0; i < numbers.size(); ++i) 
        {
            if (numbers[i] > 1)
               x = x + cos(numbers[i]); // Some work being done.
        }
        double t1 = omp_get_wtime(); 

        // Some serial work

        // Measure program execution
        exp << t1 - t0 << "\n";

        // END: Tested parallel program
    }

};

程序首先串行初始化 1e07号码为 1hoặc 100使得命中 100的概率是 10% ，这与我真实世界的输入数据相匹配。

主测试循环执行 100实验，并且循环体模型测试了并行算法。并行算法的某些部分必须串行执行。写作 pragma omp parallel for在循环中应该是一个坏主意，因为每次创建实验时它都会打开和关闭线程。

问题 1 :即使通常人们会避免在循环内打开并行区域，在这种情况下是否合理，其中每个实验循环步骤代表一个独立的并行程序执行，并且在运行时为实验准备输入数据的速度要快得多？

为了可视化写入的数据，我使用了 python(jupyter nootebook 代码):

%matplotlib inline

nhập pandas dưới dạng pd
nhập matplotlib.pyplot dưới dạng plt
from matplotlib import rcParams
nhập khẩu hệ điều hành

rcParams["figure.figsize"] = [10,20]
rcParams["font.size"] = 24 

def plot_experiment(expattern):
    thread1df = pd.read_csv("time-measurements-nthread-01-%s.csv" % expattern)
    thread2df = pd.read_csv("time-measurements-nthread-02-%s.csv" % expattern)
    thread4df = pd.read_csv("time-measurements-nthread-04-%s.csv" % expattern)
    thread8df = pd.read_csv("time-measurements-nthread-08-%s.csv" % expattern)


    f, (ax1, ax2) = plt.subplots(2, 1, sharex=True)

    ax1.plot(thread1df["time"], label="time 1", color='g')
    ax1.plot(thread2df["time"], label="time 2", color='r')
    ax1.plot(thread4df["time"], label="time 4", color='b')
    ax1.plot(thread8df["time"], label="time 8", color='k')

    ax2.plot(thread1df["time"] / thread8df["time"], label="speedup 8", color='k')
    ax2.plot(thread1df["time"] / thread4df["time"], label="speedup 4", color='b')
    ax2.plot(thread1df["time"] / thread2df["time"], label="speedup 2", color='r')

    ax1.set_ylabel("Time in seconds")
    ax1.huyền thoại()

    ax2.set_xlabel("Test number")
    ax2.huyền thoại()
    ax2.set_ylabel("Speedup")


plot_experiment("exp-01")

并且应用程序是用gcc编译的，使用优化: g++ -std=c++1y -fopenmp -O3 main.cpp -o main
实验使用 for i in 1 2 4 8; do export OMP_NUM_THREADS=$i && ./main && sleep 5; done; thực hiện

然后使用 for file in *nthread-0[0-9].csv*; do mv $file ${file/.csv/-exp-02.csv}; done 为 Pandas 重新命名实验文件(在第一个实验中将 exp-02 替换为 exp-01).

在第一个实验中，我尝试了动态调度，得到如下图:

这很奇怪，因为添加线程似乎会减慢程序的速度。使用 HPCToolkit 检查瓶颈为 exp-01Và 8线程，我注意到 OpenMP 花费了大量时间在 dynamic 中进行切换。调度模式:

所以我把调度模式切换到 tĩnh并重新运行实验，然后得到以下结果:

现在有一些扩展，至少对于 2线程，但现在 4线程振荡太多，使用 8效果不大线程。我使用 HPCToolkit 检查了它再次得到这个:

我认为这告诉我启动和停止线程正在消耗 85%我的运行时 8线程，但是 HPCToolkit 手册指出

Furthermore, if the filtered nodes are children of a “fake” procedures (such as program_root and thread_root), the exclusive metrics in callers view and flat view can be misleading.

问题 2 : 实验02在实验循环内打开和关闭并行区域是否有显着开销？如果是这样，考虑到算法的串行部分，如何解决这个问题？

软件:Arch Linux，g++ (GCC) 7.1.1 20170630，hpcrun:HPCToolkit 成员，版本 2017.11，CPU:Intel(R) Core(TM) i7-4710HQ CPU @ 2.50GHz

biên tập

我尝试使用建议的环境变量更改线程持久性行为 in the answer to this question :

export OMP_WAIT_POLICY=active GOMP_SPINCOUNT=infinite

Sau đây là kết quả:

显然，由线程创建/销毁引起的振荡要低得多，但它们消失了吗？有没有办法改变程序，这样我就不必依赖自旋线程？调查此程序的瓶颈仍将显示自旋线程花费了大量 CPU 周期。

1 Câu trả lời

从评论中的讨论来看，您的主要问题似乎是您有一个复杂的现有应用程序，并希望在某个内部部分放置一个工作共享循环。但是仅创建所有线程在您的应用程序中有太多开销，libgomp 的线程池似乎不够。

如果你想在不重组的情况下做到这一点，使用 taskloop 可能会有所帮助。，其作用类似于 vì ，但可以嵌套在 single 中部分。反过来，它可能不如`for 那样有效。基本上你的代码看起来像这样:

số nguyên a;
#pragma omp parallel
{
  int b;
  #pragma omp single
  {
    số nguyên c;
    // lots of serial code
    // somewhere inbetween
    #pragma omp taskloop
    for (...) {
      int d;
    }
    // lots of serial code
  }
}

请注意，任务生成结构的数据共享工作方式略有不同。默认情况下，在并行区域( Một )之外声明的变量是 shared内 song song区域，并在执行内循环的任务之间共享。在并行区域内声明的变量，但在 taskloop 之外( b , c ), 是 riêng tư平行区域内和 firstprivate - 即每个线程都有自己的副本，该副本使用外部值进行初始化。最后 ngày只是每个循环迭代的局部。

编辑:不要设置任何障碍。由于隐式任务组，串行部分和任务在执行中是隔离的。

关于openmp - 如何统计测量程序中的 OpenMP 性能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48303120/

Bài viết được đề xuất: dart - Polymer Iron Flex Mixin 不起作用，但类可以

Bài viết được đề xuất: delphi - 如何获得已弃用的接口(interface)函数以停止显示编译器警告？

Bài viết được đề xuất: Delphi SQLite3使用ZeosLib，如何共享数据库？

Bài viết được đề xuất: asp.net - RadGrid - 我可以将列数据字段属性设置为枚举描述吗？

Chương trình C Tôi tự hỏi liệu có cách nào để đơn giản hóa chương trình dayofyear của mình không?
Tôi mới học C và tôi đã viết chương trình C này cho phép người dùng nhập ngày trong năm và ngược lại chương trình sẽ xuất ra tháng và ngày trong tháng. Chương trình hoạt động tốt, nhưng bây giờ tôi muốn đơn giản hóa chương trình. Tôi biết là tôi cần một vòng lặp nhưng tôi không biết phải làm thế nào. Đây là chương trình
Chương trình Java GUI - Chương trình Paint
Tôi đang cố gắng tìm ra lỗi trong mã của mình. Ý tưởng là tạo ra một chương trình vẽ nhỏ, với các nút màu đỏ, xanh lá cây, xanh lam và trong suốt. Tôi đã nghĩ ra mọi cách để khiến nó hoạt động nhưng vẫn không thể tìm ra lỗi trong mã. Chương trình mở ra rồi đóng lại ngay lập tức. nhập khẩu ja
homebrew - Quá trình di chuyển từ Homebrew-app/cheat-app sang Homebrew-app/core là gì?
Tôi muốn cài đặt màn hình, nhưng tôi phải làm gì tiếp theo? $ brew tìm kiếm màn hình imgur-screenshot màn hình
Máy khách (chương trình python) không nhận được phản hồi trả về từ máy chủ (chương trình c)?
Tôi có một ứng dụng socket UDP hoạt động ở phía máy chủ. Để kiểm tra phía máy chủ, tôi đã viết một chương trình máy khách python đơn giản để gửi tin nhắn "xin chào thế giới, bạn khỏe không". Sau đó máy chủ sẽ nhận được tin nhắn và
Chạy một tập lệnh shell chạy một chương trình python sau đó chạy một chương trình R
Tôi có một tập lệnh shell chạy chương trình Python để xử lý trước một số dữ liệu, sau đó chạy chương trình R để thực hiện một số tác vụ chạy lâu. Tôi đang học cách sử dụng Docker và tôi đã chạy FROM r-base:l
Khởi chạy chương trình c từ Python trong Linux, truyền một chuỗi văn bản lớn làm đối số cho chương trình c
Trong Linux. Tôi có một chương trình C đọc một tệp văn bản có kích thước 2048 byte làm đầu vào. Tôi muốn khởi chạy một chương trình C từ một tập lệnh Python. Tôi muốn tập lệnh Python truyền một chuỗi văn bản làm đối số cho chương trình C thay vì
Gọi chương trình C# cục bộ trên trang web
Gần đây tôi bắt đầu sắp xếp các bản nháp trong ghi chú của mình. Bài viết này được tạo vào tháng 5 năm 2023 (vì nó được chuyển sang OneDrive ở giữa, có thể còn lâu hơn thế nữa). Đây là một tình huống phổ biến để gọi các chương trình máy tính từ web, chẳng hạn như tải xuống từ Baidu Netdisk, tham gia nhóm QQ, v.v.
Chương trình VHDL
Trong một lớp học, tôi được yêu cầu viết một chương trình VHDL sử dụng hai số nguyên đầu vào là A và B, rồi thay thế A bằng A+B và B bằng AB. Tôi đã viết chương trình và testbench sau đây. Nó thực hiện việc triển khai và kiểm tra cú pháp hành vi, nhưng không mô phỏng. Tất cả
Chương trình Haskell
mô-đun Thuật toán nơi nhập System.Random nhập Data.Maybe nhập Data.List loại Atom = String loại
Chương trình C++ để tìm bội chung nhỏ nhất của N số cho trước
Tôi muốn tìm bội chung nhỏ nhất của nhiều hơn hai số Chương trình C++ để tìm bội chung nhỏ nhất của một số N cho trước Câu trả lời hay nhất int lcm(int a, int b) { return (a/gcd(a,b))*b; } Đối với gcd, hãy xem
Chương trình C# cho lập chỉ mục
Chương trình này có lỗi. Có ai giải được bài này không? Lỗi là: TempRecord đã định nghĩa một thành viên có tên là 'this' với cùng các tham số
Chương trình C++ cho mật khẩu hàng rào đường sắt
Khi tôi chạy chương trình sau, tôi nhận được các giá trị rác trong str1 và str2. Vì vậy #include #include #include sử dụng không gian tên std; int main() {
Chương trình Dead Rabbit C++
Đây là bài tập về nhà của tôi: Một cặp thỏ mới sinh (một đực và một cái) được đặt trên một cánh đồng. Thỏ có thể giao phối khi được một tháng tuổi, vì vậy vào cuối tháng thứ hai, mỗi cặp thỏ sẽ sinh ra hai cặp thỏ mới rồi chết đi. Lưu ý: Trong tháng 0, có 0 cặp thỏ. Vào tháng đầu tiên, có một cặp thỏ
Chương trình C++ để chuyển đổi thập phân sang thập lục phân
Tôi đã viết một chương trình để chuyển đổi chuỗi thập phân sang thập lục phân bằng cách sử dụng lệnh switch cho các chữ cái, nhưng chương trình không hoạt động bình thường nếu tôi sử dụng char! Nếu không có lệnh switch, tôi không thể xử lý các số trên 9. Tôi hy vọng bạn có thể hiểu tôi vì tôi
Chương trình C++ để kết nối với MySQL
Tôi mới làm quen với C++ (mặc dù tôi có một số kinh nghiệm với C) và MySQL, và tôi đang cố gắng tạo một chương trình đọc cơ sở dữ liệu từ MySQL, tôi đã làm theo hướng dẫn này nhưng tôi gặp lỗi khi cố gắng "xây dựng" giải pháp. (Tôi đang sử dụng
Chương trình Swift If
Tôi vẫn là người mới bắt đầu và đang cố gắng sử dụng một số chức năng cơ bản trong Swift. Có ai có thể cho tôi biết lỗi trong đoạn mã này không? nhập UIKit var guessInt: Int var randomNum = arc
Chương trình C++ để gấp các hằng số
Tôi đang viết một hàm trong C++11 sử dụng biểu thức có dạng constant1 + constant2 và kết hợp chúng lại với nhau. constant1 và constant2 được lưu trữ trong std::string,
Chương trình C++ để cộng và nhân 2 ma trận
Tôi đã viết đoạn mã này bằng C++ để cộng và nhân 2 ma trận bằng cách sử dụng toán tử quá tải. Khi tôi thực thi mã, nó tạo ra lỗi ở dòng 57 và 59, thao tác cấu trúc không hợp lệ (lỗi giống nhau ở cả hai dòng). Xin hãy giải thích lỗi của tôi. Cảm ơn trước:
Chương trình C++ để hoán đổi hai ký tự trong một chuỗi
Tôi là người mới bắt đầu học C++ và muốn viết một chương trình đơn giản để hoán đổi hai ký tự trong một chuỗi. Ví dụ; chúng ta nhập chuỗi này: "EXAMPLE", và hoán đổi hai ký tự này: "E" và "A", kết quả đầu ra sẽ tương tự như "AXEMPLA". Tôi ở đây
Chương trình C++ để xác định hình tam giác
Tôi cần trợ giúp với đoạn mã sau: Khai báo 3 biến kiểu double, mỗi biến đại diện cho một trong ba cạnh của một tam giác. Yêu cầu người dùng nhập giá trị cho cạnh đầu tiên, sau đó thiết lập dữ liệu đầu vào của người dùng thành biến bạn đã tạo để biểu diễn cạnh đầu tiên của tam giác. Hai bước cuối cùng

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

openmp - 如何统计测量程序中的 OpenMP 性能？