android — Hiệu suất nhân ma trận thưa x dày đặc không hiệu quả

Hiệu suất nhân ma trận thưa x dày đặc không hiệu quả

In lại Tác giả: Taklimakan Thời gian cập nhật: 2023-11-03 00:43:05

上下文:Tôi sử dụng Eigen cho các mạng thần kinh nhân tạo có kích thước điển hình là khoảng 1000 nút mỗi lớp. Vì vậy, hầu hết thao tác là chuyển đổi ma trận có kích thước ~(1000,1000) M Nhân với vectơ có kích thước 1000 hoặc một loạt vectơ B,Biểu diễn dưới dạng ma trậnKích thước Bx1000.

Sau khi huấn luyện mạng nơ-ron, tôi sử dụng tính năng cắt tỉa - một kỹ thuật nén phổ biến và kết thúc bằng một ma trận thưa thớt (mật độ các tham số không trống từ 10% đến 50%).

Mục tiêu:Tôi muốn sử dụng ma trận thưa để nén và thứ hai là để tối ưu hóa hiệu suất, nhưng đó không phải là mục tiêu chính

câu hỏi: Tôi đang so sánh hiệu suất của phép nhân ma trận thưa và phép nhân ma trận dày đặc (chỉ tính thời gian nhân) cho các kích cỡ lô khác nhau và tôi đang quan sát những điều sau (sử dụng Eigen 3.2.8, MacBook Pro 64-bit, không có open_mp, và sử dụng tiêu chuẩn g++):

Khi B=1(ma trận
Với B=32:
- Các phép toán ma trận dày đặc chỉ mất khoảng 10 lần thời gian B=1 - thật tuyệt - nó có hiển thị một số hiệu ứng vector hóa không?
- Thời gian cần thiết cho các phép toán ma trận thưa thớt là thời gian cần thiết cho B=1 67 - Điều này có nghĩa là nó kém hiệu quả hơn so với việc xử lý 32 vectơ độc lập

Thời gian nhân MxN (ms) cho M thưa/dày đặc và N có kích thước 1000xB

Các số giống nhau nhưng hiển thị thời gian trên mỗi vectơ trong một lô có kích thước khác nhau đối với ma trận thưa thớt và dày đặc. Chúng tôi thấy rõ sự giảm thời gian đối với ma trận dày đặc khi kích thước lô tăng lên và việc tăng cường cho ma trận thưa thớt hiển thị một số sai được chuẩn hóa theo thời gian. =1

mã số:Tôi sử dụng các loại sau cho ma trận thưa thớt và dày đặc:

typedef SparseMatrix spMatFloat;
Ma trận typedef deMatRowFloat;

Những gì tôi muốn điểm chuẩn như sau:

o.noalias()=m*in.transpose();

其中 o là một ma trận dày đặc (1000xB),m là một ma trận dày đặc (1000x1000) hoặc bằng m.sparseView( )，而TRONGlà một ma trận dày đặc (Bx1000)

Mã hoàn chỉnh như sau (Thời gian trung bình cho 20 ma trận ngẫu nhiên khác nhau, mỗi phép tính nhân 50) - Thời gian của B=32 và B=1 như sau.

Mọi phản hồi/cảm giác chân thành đều được chào đón!

đợt 1 tỷ lệ 0,3 dày đặc 0,32 thưa thớt 0,29
đợt 32 tỷ lệ 0,3 dày đặc 2,75 thưa thớt 15,01

#include 
#include 
#include 
#include 

sử dụng không gian tên Eigen;
sử dụng không gian tên boost::timer;

typedef SparseMatrix spMatFloat;
Ma trận typedef deMatRowFloat;

void bench_Sparse(const spMatFloat &m, const deMatRowFloat &in, deMatRowFloat &o) {
  o.noalias()=m*in.transpose();
}

void bench_Dense(const deMatRowFloat &m, const deMatRowFloat &in, deMatRowFloat &o) {
  o.noalias()=m*in.transpose();
}

int main(int argc, const char **argv) {
  tỷ lệ thả nổi = 0,3;
  int iter=20;
  lô int=32;
  float t_dense=0;
  float t_sparse=0;

  deMatRowFloat d_o1(batch,1000);
  deMatRowFloat d_o2(batch,1000);
  for(int k=0; k
    deMatRowFloat d_m=deMatRowFloat::Zero(1000,1000);
    deMatRowFloat d_b=deMatRowFloat::Random(batch,1000);
    for(int h=0;h
      int i=Rand()%1000;
      int j=Rand()%1000;
      d_m(i,j)=(Rand()%1000)/500.-1;
    }
    spMatFloat s_m=d_m.sparseView();
    {
      bộ đếm thời gian cpu_timer;
      for(int k=0;k<50;k++) bench_Dense(d_m,d_b,d_o1);
      cpu_times const elapsed_times(timer.elapsed());
      nanosecond_type const đã trôi qua(elapsed_times.system+elapsed_times.user);
      t_dense+=đã trôi qua/1000000.;
    }
    {
      bộ đếm thời gian cpu_timer;
      for(int k=0;k<50;k++) bench_Sparse(s_m,d_b,d_o2);
      cpu_times const elapsed_times(timer.elapsed());
      nanosecond_type const đã trôi qua(elapsed_times.system+elapsed_times.user);
      t_sparse+=đã trôi qua/1000000.;
    }
  }
  std::cout<<"batch\t"<<><><>
}

Kết quả mới sau khi ggael đề xuất:Tôi đã thử các cách kết hợp khác nhau và nhận thấy rằng khi thay đổi M Và B Thực sự có sự khác biệt lớn về hiệu suất khi RowMajor/Column.

Tóm lại, tôi M*B quan tâm đến cái nào M là (1000,1000) và B is(1000,batch): Tôi quan tâm đến việc so sánh hiệu suất của M thưa/dày đặc và khi lô tăng lên.

Tôi đã thử nghiệm 3 cấu hình:

M chuyên sâu, B chuyên sâu
M thưa thớt, B dày đặc
M thưa thớt và B dày đặc, nhưng phép nhân M*B được thực hiện thủ công theo từng cột.

Kết quả như sau - trong đó số là tỷ lệ thời gian trên mỗi cột của B=32/lần đối với B=1 với ma trận M có mật độ 0,3:

Các vấn đề được báo cáo ban đầu là trường hợp xấu nhất (M ColMajor, B RowMajor). Đối với (M RowMajor, B ColMajor), có tốc độ tăng gấp 5 lần giữa B=32 và B=1 và hiệu suất của ma trận thưa thớt gần như tương đương với hiệu suất của ma trận dày đặc.

câu trả lời hay nhất

Trong Eigen, các sản phẩm vectơ ma trận và ma trận được tối ưu hóa cao cho đại số dày đặc và tận dụng tối đa lợi thế của vectơ hóa. Như bạn có thể thấy, tích ma trận mang lại hiệu quả cao hơn. Điều này là do các sản phẩm ma trận có thể được tối ưu hóa hơn nữa bằng cách tăng tỷ lệ giữa số phép tính số học và số lần truy cập bộ nhớ cũng như bằng cách sử dụng bộ nhớ đệm bộ nhớ.

Sau đó, đối với các sản phẩm có mật độ thưa thớt, có hai chiến lược:

Quét ma trận thưa thớt nhiều lần bằng cách xử lý từng cột dày đặc bên phải. Đối với chiến lược này, tốt hơn nên sử dụng bộ lưu trữ theo cột cho các ma trận dày đặc (vế phải và kết quả). Trong Eigen 3.2, chiến lược này đã được mô phỏng bằng cách quét các cột theo cách thủ công.
Chỉ quét ma trận thưa thớt một lần, xử lý các hàng ở phía bên phải dày đặc để có được vòng lặp lồng nhau nhất có thể. Đây là chính sách mặc định trong Eigen 3.2. Trong trường hợp này, tốt hơn nên sử dụng ma trận dày đặc (Ma trận) sử dụng bộ nhớ lớn theo hàng.

Cuối cùng, trong cả hai trường hợp, bạn có thể thử sử dụng bộ lưu trữ theo hàng và cột chính cho các ma trận thưa thớt và quyết định sự kết hợp nào giữa chiến lược và thứ tự lưu trữ cho các ma trận thưa thớt phù hợp nhất với trường hợp của bạn.

Về c++ - tính kém hiệu quả của phép nhân ma trận thưa x dày đặc, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/39547061/

Bài viết khuyến nghị: python - sip 安装成功后安装 PyQt(用于 pyuic4) : error: PyQt-x11-gpl-4. 11 安装

Bài viết khuyến nghị: Khi nào PendingIntent và LocationListener được đề xuất trên requestLocationUpdates?

Bài viết khuyến nghị: Hệ thống Linux của máy ảnh không thể chạy các chương trình C đã biên dịch có './abcd' và thay vào đó nhận dạng chúng dưới dạng tập lệnh /bin/sh

Bài viết khuyến nghị: android - ListView và ArrayAdapter

Giải pháp cho sự cố ConnectionrefusedtoHost:127.xxx/192.xxx/10.xxx mà JavaRMI gặp phải
Sự cố và bản ghi khắc phục sự cố--Kết nối Java RMI bị từ chối lưu trữ: xxxx.... Khi học JavaRMI, tôi gặp phải các lý do sự cố sau:
haskell - Tại sao `fx = xx` và `gx = xxxxx` có cùng loại
Tôi đang thử nghiệm loại Rank-N và cố gắng nhập xx . Nhưng tôi thấy rằng cả hai chức năng đều có thể được nhập theo cùng một cách, điều này khá không trực quan. f :: (forall a b. a -> b) -> cfx = xxg ::
java - So sánh hai chuỗi phiên bản (4.xxx, 5.xxx)
Câu hỏi này đã có câu trả lời: Làm cách nào để so sánh hai Chuỗi phiên bản trong Java? (31 câu trả lời) Đã đóng 8 năm trước. Có ai biết cách so sánh hai chuỗi phiên bản trong Java không
java - x=20;x=++x+++x + x++ ;Giá trị cuối cùng của x trong java là 65
Câu hỏi này đã có câu trả lời: Các toán tử tăng sau (i++) và tăng trước (++i) hoạt động như thế nào trong Java?
linux - Làm cách nào để có được địa chỉ IP mục tiêu đầy đủ (xxxx/x) bằng lệnh netstat?
Sau đây là đầu ra của lệnh netstat với các tùy chọn -n và -r, trong đó trường đích hiển thị địa chỉ được nén (127.1/16). Tôi muốn biết liệu có cách nào hoặc tùy chọn nào để lệnh netstat hiển thị toàn bộ IP mục tiêu (127.1.1.1) không.
logic - Làm cách nào để chứng minh (∀ x, и A x) → и ∃ x, A x dựa trên nguyên tắc Lean?
Mình biết cách chứng minh: (- ∀ x, px) → (∃ x, - px) Cách chứng minh là: định lý : (- ∀ x, px) → (∃ x, - px) := bắt đầu giới thiệu n
c++ - x*x != x*x trong các biến tự động?
Làm cách nào x * x có thể được thay đổi bằng cách lưu trữ nó trong "biến tự động"? Tôi nghĩ nó vẫn giống nhau và thử nghiệm của tôi cho thấy rằng loại, kích thước và giá trị rõ ràng là giống nhau. Nhưng ngay cả x * x == (xx = x * x) cũng sai. Cái gì
c# - Cách viết lại biểu thức x=>!x thành x=>x!=true và x=>x thành x=>x==true
Giả sử, chúng ta diễn đạt nó như thế này: someIQueryable.Where(x => x.SomeBoolProperty) someIQueryable.Where(x => !x.SomeBoolProper
regrec - Tại sao công cụ biểu thức chính quy chọn khớp mẫu `.X|..X|X.` từ `..X`?
Tôi có một chuỗi 1234X5678 và tôi sử dụng biểu thức chính quy này để khớp với mẫu .X|..X|X. Tôi nhận được 34X. Câu hỏi đặt ra là tại sao tôi không nhận được 4X hoặc X5? Tại sao biểu thức chính quy chọn thực thi mẫu thứ hai? Câu trả lời hay nhất ở đây
(x++ !== x) && (x++ === x); có thể trả về đúng không?
Một người bạn của tôi đã gặp phải vấn đề này trong một cuộc phỏng vấn. Tìm giá trị của x làm cho hàm trả về đúng. function f(x) { return (x++ !== x) && (x++ === x);
Tại sao thường Map = HashMap mới() thay vì HashMap = HashMap mới()?
Câu hỏi này đã có câu trả lời ở đây: đã đóng cửa 10 năm trước. Có thể trùng lặp: Làm việc với foo không dễ dàng hơn khi nó được biểu diễn b
Phát triển ứng dụng Android cho nhiều phiên bản, tức là 1.x, 2.xx, 3.xx, 4.xx
Tôi mới sử dụng Android và đang thực hành phát triển ứng dụng nhắm mục tiêu phiên bản 2.2 và tôi cần trợ giúp để hiểu cách mở rộng ứng dụng của mình sang các phiên bản khác, cụ thể là 1.x, 2.3.x, 3.x và 4.xx và một số cho độ phân giải màn hình
mảng javascript nhầm lẫn giữa x = [x] && x.push(x) khi var x;
Tại sao trường hợp 1 cho chúng ta:error: TypeError: x is unexpected on line... //case 1 var x.push(x);
Sự khác biệt giữa x += x và x = x + x trong danh sách Python
Mã đầu tiên: # CASE 01 def test1(x): x += x print xl = [100] test1(l) print l CASE01 đầu ra: [100, 100
Cách xác định Big O trông như thế này: (x -1) + (x - 2) + (x - 3) .. (x - x)
Tôi đang cố gắng hoàn thiện những tính toán lớn của mình. Nếu tôi có một hàm di chuyển tất cả các mục sang bên phải 'i' 2 khoảng trắng, thì tôi có một công thức trông như thế này: (n -1) + (n - 2) + (n - 3) ... (n - n) lần lặp đầu tiên tôi phải
android — Tính dải IP bằng xxxx/x từ chuỗi IP
Với một chuỗi IP (như xxxx/x), tôi sẽ tính toán phạm vi của IP như thế nào. Trường hợp phổ biến nhất có thể là 198.162.1.1/24 nhưng nó có thể là bất kỳ thứ gì, vì luật pháp cho phép mọi thứ. Tôi muốn mang 198.162.1.1/
Tại sao var x = x = x || {} kỹ lưỡng hơn var x = x ||?
Trong nỗ lực viết mã Javascript sạch khi mới bắt đầu, gần đây tôi đang đọc bài viết này thì tình cờ thấy đoạn này, về các không gian tên trong JavaScript: The code at the ve
javascript - var x = x || {}; so với x = window.x ||
Tôi đang viết một tập lệnh mà tôi muốn tránh làm ô nhiễm phần còn lại của DOM, đó sẽ là tập lệnh của bên thứ 3 thu thập một số dữ liệu phân tích cơ bản về khách truy cập. Tôi thường tạo một "không gian tên" giả bằng cách sử dụng: var x = x || {};
docker - create_network(): Không thể gán cổng (xxxx): Địa chỉ đã được sử dụng trong trường hợp thử nghiệm
Tôi đã thử chạy bộ test_container_services.py nhưng gặp phải sự cố sau: docker.errors.APIError: 500 Server Error: Internal Server Error ("b'{" message
c# - Có phải "x as X != null" và "x is X" luôn trả về cùng một kết quả không?
Có những tình huống nào mà hai câu lệnh if này sẽ tạo ra các kết quả khác nhau không? if(x as X != null) { // Làm gì đó } if(x is X) { // Làm gì đó } ed.

Taklimakan

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Hiệu suất nhân ma trận thưa x dày đặc không hiệu quả