Đọc mã nguồn TVM PASS—VectorizeLoop-6ren

Đọc mã nguồn TVM PASS—VectorizeLoop

In lại Tác giả: Tôi là chú chim nhỏ Thời gian cập nhật: 24-06-2023 22:32:10

Địa chỉ của bài viết này: https://www.cnblogs.com/wanger-sjtu/p/17501119.html.

PASS của VectorizeLoop là vector hóa vòng lặp For được đánh dấu là ForKind::kVectorized và thay thế các biến liên quan đến các câu lệnh trong vòng lặp For bằng Ramp để tạo điều kiện thuận lợi cho việc tạo các hướng dẫn vận hành vector hóa liên quan trong quá trình Codegen.

Chức năng nhập của VectorizeLoop PASS như sau. Tải xuống sẽ chỉ được kích hoạt khi Enable_vectorize=true được bật, nếu không VectorizeSkipper sẽ thay thế vòng lặp For của ForKind::kVectorized bằng vòng lặp bình thường.

                        
                          Truyền VectorizeLoop(bool enable_vectorize) { tự động pass_func = [=](PrimFunc f, IRModule m, PassContext ctx) { tự động* n = f.CopyOnWrite(); nếu (enable_vectorize) { n->body = LoopVectorizer()(std::move(n->body)); } nếu không { n->body = VectorizeSkipper()(std::move(n->body)); } trả về f; }; trả về CreatePrimFuncPass(pass_func, 0, "tir.VectorizeLoop", {}); }

Hãy lấy một vài ví dụ trong UT để giới thiệu cách triển khai mã nguồn.

vòng lặp vectorize

                        
                          dtype = "int64" n = te.var("n") ib = tvm.tir.ir_builder.create() A = ib.pointer("float32", name="A") với ib.for_range(0, n) là i: với ib.for_range(0, 4, kind="vectorize") là j: A[i*4+j] += tvm.tir.const(1, A.dtype) stmt = ib.get() assert isinstance(stmt.body, tvm.tir.For) mod = tvm.IRModule.from_expr(tvm.tir.PrimFunc([A, n], stmt)) stmt = tvm.tir.transform.VectorizeLoop()(mod)["main"].body

Đoạn mã trên thực hiện phép cộng vectơ. Vectơ A có độ dài 4n cộng +1 cho mỗi phần tử.

                        
                          # trước đối với (i, 0, n) { vectơ hóa (j, 0, 4) { A[((i*4) + j)] = (A[((i*4) + j)] + 1f) } } # sau đối với (i, 0, n) { A[ramp((i*4), 1, 4)] = (A[ramp((i*4), 1, 4)] + x4(1f)) }

Có thể thấy rằng sau khi vượt qua PASS của VectorizeLoop, vòng lặp bên trong bị loại bỏ và thay thế bằng lệnh vectơ Ramp. Lệnh này sẽ được thay thế bằng lệnh SIMD (neon, AVX, v.v.) trong CPU.

quá trình ĐẠT

PASS được vector hóa được xử lý trong LoopVectorizer, xử lý phần vòng lặp For.

                        
                          lớp LoopVectorizer: public StmtMutator { public: Stmt VisitStmt_(const ForNode* op) final { if (op->kind == ForKind::kVectorized) { ICHECK(is_zero(op->min)); auto* extend_as_int = op->extent.as(); if (!extent_as_int || extend_as_int->value < 1) { LOG(FATAL) << "Không thể vector hóa vòng lặp với phạm vi " << op->extent; } return Vectorizer(op->loop_var, static_cast(extent_as_int->value))(op->body); } else { return StmtMutator::VisitStmt_(op); } } };

Khi gặp một nút cần được vector hóa, trước tiên hãy ghi lại biến và phạm vi vòng lặp, những biến này sẽ được sử dụng sau này khi thay thế các hoạt động Tải và Lưu trữ tương ứng bằng Ramp. Sau đó, chúng ta đến phần Vectorizer, duyệt qua phần thân vòng lặp For và sửa đổi stmt tương ứng.

                        
                          Vectorizer(Var var, int var_lanes) : var_(var), var_lanes_(var_lanes) { đoạn đường nối_ = Đường dốc(0, 1, var_lanes); }

Các PrimExpr và Stmt khác nhau bị quá tải trong Vectorizer. Tôi sẽ không giới thiệu từng cái một ở đây mà sẽ sử dụng phép tính cộng vectơ ở trên để giới thiệu các hàm và quy trình được sử dụng.

Trước tiên, chúng ta hãy xem logic tính toán trong vòng lặp For trong sch ở trên:

                        
                           A[((i*4) + j)] = (A[((i*4) + j)] + 1f)

Bởi vì trong TVM, biểu thức của Stmt có thể được coi là ngôn ngữ DSL và AST được duyệt theo chiến lược theo chiều sâu khi được truy cập. Ở đây, quy trình tính toán ở trên được biểu thị đơn giản dưới dạng cây cú pháp AST và sau đó là các lệnh gọi. trong quá trình này được phân tích mỗi chức năng được xử lý như thế nào.

Như có thể thấy từ sơ đồ AST ở trên, đối với sch trên, BufferStoreNode, Add Mul, BufferLoadNode, v.v. được truy cập theo trình tự. Ở đây chúng tôi sẽ giới thiệu quy trình vector hóa dựa trên việc xử lý các Nút này.

Cái gọi là quá trình vector hóa là ánh xạ phép toán vòng lặp vô hướng được đánh dấu kVectorized thành một phép toán được vector hóa. Đối với ví dụ trên, tất cả các quyền truy cập vào j đều được ánh xạ tới RampNode, để quá trình xử lý tiếp theo có thể tạo ra các hướng dẫn tương ứng một cách chính xác.

Nút lưu trữ đệm

Có ba phần trong BufferStoreNode:

bộ đệm——bộ đệm để ghi vào
giá trị - giá trị hoặc biểu thức được viết
chỉ số——tọa độ được ghi vào bộ đệm
Mục đích ở đây là sửa đổi giá trị Và chỉ số nội dung trong.
vì chỉ số , được thực hiện ở đây. cuối cùng đã vượt qua Trợ lý bản đồ Lần lượt ghé thăm chỉ số sự biểu lộ.

                        
                          auto fmutate = [this](const PrimExpr& index) { return this->VisitExpr(index); }; Mảng chỉ số = op->indices.Map(fmutate);

Đối với giá trị, nó được duyệt trực tiếp.

                        
                          Giá trị PrimExpr = this->VisitExpr(op->giá trị);

Thêm nút

Cả AddNode và SubNode đều sẽ chuyển đến chức năng mẫu AddSubVec. Hàm này trước tiên sẽ duyệt qua các biểu thức bên trái và bên phải, .

                        
                          PrimExpr a = this->VisitExpr(op->a); PrimExpr b = this->VisitExpr(op->b); nếu (a. giống như(op->a) && b. giống như(op->b)) { trả về GetRef(op); } else { int lanes = std::max(a.dtype().lanes(), b.dtype().lanes()); nếu (lanes != 1) { const RampNode* b_ramp = b.as(); const RampNode* a_ramp = a.as(); nếu (a.dtype().lanes() == 1 && b_ramp) { trả về Ramp(fcompute(a, b_ramp->base), fcompute(make_zero(b_ramp->stride.dtype()), b_ramp->stride), b_ramp->lanes); } nếu (b.dtype().lanes() == 1 && a_ramp) { trả về Ramp(fcompute(a_ramp->base, b), a_ramp->stride, a_ramp->lanes); } } trả về fcompute(BroadcastTo(a, lanes), BroadcastTo(b, lanes));

Nếu không có thay đổi sau khi duyệt qua, nó sẽ được trả lại trực tiếp. Và điều chúng ta cần tính toán ở đây là.

                        
                          ((i*4) + j)

j là tọa độ cần được vector hóa. i*4 không thay đổi. Sau khi truyền tải, a không thay đổi và b trở thành T.Ramp(0, 1, 4). Tại thời điểm này, làn đường = 4, nó sẽ chuyển đến nhánh if đầu tiên và RampNode mới được xây dựng sẽ được trả về.

                        
                           T.Ramp(i * 4, 1, 4)

Các nhánh khác cũng tương tự. Ví dụ:

                        
                          A[i * 4 + j] + T.float32(1) // --- sau --- A[i * 4:i * 4 + 4] T.float32(1)

Ở đây, a và b sẽ được phát dưới dạng vectơ rồi tính toán.

Mã số

Phán quyết của VarNode ở đây tương đối đơn giản. Nếu biến cần được vector hóa khớp với nhau thì RampNode được xây dựng trong hàm tạo sẽ được trả về, nếu không nó sẽ được trả về. Các hoạt động khác được bỏ qua bây giờ.

                        
                          Var var = GetRef(op); if (var.same_as(var_)) { return đoạn đường nối_; } // ... else { return std::move(var); }

Nút đa năng

                        
                          PrimExpr a = this->VisitExpr(op->a); PrimExpr b = this->VisitExpr(op->b); nếu (a. giống như(op->a) && b. giống như(op->b)) { trả về GetRef(op); } else { int lanes = std::max(a.dtype().lanes(), b.dtype().lanes()); nếu (lanes != 1) { const RampNode* b_ramp = b.as(); const RampNode* a_ramp = a.as(); nếu (a_ramp && b.dtype().lanes() == 1 && analyzer_.CanProve(b > 0)) { trả về Ramp(a_ramp->base * b, a_ramp->stride * b, a_ramp->lanes); } nếu (b_ramp && a.dtype().lanes() == 1 && analyzer_.CanProve(a > 0)) { trả về Ramp(b_ramp->base * a, b_ramp->stride * a, b_ramp->lanes); } } trả về Mul(BroadcastTo(a, lanes), BroadcastTo(b, lanes)); } trả về BinaryVec(op);

Logic xử lý ở đây về cơ bản giống như Add. Nó chỉ khác một chút khi tính toán RampNode.

Cuối cùng, bài viết về đọc mã nguồn TVM PASS—VectorizeLoop kết thúc tại đây. Nếu bạn muốn biết thêm về cách đọc mã nguồn TVM PASS—VectorizeLoop, vui lòng tìm kiếm bài viết CFSDN hoặc tiếp tục duyệt qua các bài viết liên quan. blog tương lai! .

Đề xuất bài viết: Quạ ba mắt Sora

Đề xuất bài viết: Bắt đầu WPF Ghi chú-06-Lệnh

Đề xuất bài viết: MCU GigaDevice GD32 trong nước thực hiện quét khóa ma trận

Đề xuất bài viết: Giải phóng phạm vi bắn vulnhub-xxe (tiếp tục có lỗ hổng xxe)

truyền tham số - Vala là "truyền theo tham chiếu" hay "truyền theo giá trị"?
Hoặc có những con trỏ và tham chiếu như thế này trong C? Tôi đang cố gắng bắt đầu sử dụng vala nhưng thật tuyệt nếu biết liệu vala là "truyền theo tham chiếu" hay "truyền theo giá trị" Câu trả lời hay nhất Trước tiên, bạn nên hiểu rằng trình biên dịch vala mặc định valac biên dịch thành C (dưới dạng
truyền tham số - Thiết kế "truyền tham chiếu" có tệ không?
Như hiện tại, câu hỏi này không phù hợp với định dạng Hỏi & Đáp của chúng tôi. Chúng tôi hy vọng câu trả lời sẽ được hỗ trợ bởi các sự kiện, trích dẫn hoặc chuyên môn, nhưng câu hỏi có thể gây ra tranh luận, tranh luận, bỏ phiếu hoặc thảo luận mở rộng. Nếu bạn cảm thấy vấn đề này có thể được cải thiện và có thể mở lại, hãy truy cập
php - crypt($pass, '$2y$09$salt' ) === crypt($pass, crypt($pass, '$2y$09$salt' )) Nó hoạt động như thế nào trong PHP?
Tôi thực sự bối rối về hàm PHP crypt(). Tại sao hai hàm mật mã sau đây lại cho cùng một đầu ra khi mật mã thứ hai rõ ràng sử dụng một đối số thứ hai khác? Muối vi phân có nghĩa là hàm băm vi sai phải không? echo crypt("p
pass-by-reference - Hướng dẫn R5RS : truyền qua tham chiếu
Tôi đang cố gắng mô phỏng một ngăn xếp trong một kịch bản. Tôi đang sử dụng DrScheme và chọn ngôn ngữ R5RS. Tôi cần tạo các hàm cho pop, push và look. Nhưng tôi không thể tìm ra cách chuyển nó bằng cách tham khảo. Tôi đã đọc một chút về chiếc hộp, nhưng
truyền tham số - "pass-by-name" là gì? Chính xác thì nó hoạt động như thế nào?
Tôi đã kiểm tra Wikipedia và googled, nhưng tôi vẫn không thể hiểu cách hoạt động của tính năng chuyển tên trong ALGOL 60. Câu trả lời hay nhất Tôi đã tìm thấy một câu trả lời hay tại Truyền tham số theo tên
mảng - Lập trình và mảng Excel VBA: Chuyển chúng hay không chuyển chúng?
Câu hỏi: Tôi muốn biết giải pháp tốt nhất để làm việc với mảng trong Excel 2003 Nền VBA: Tôi có một macro trong Excel 2003 với hơn 5000 hàng. Tôi đã xây dựng nó trong 2 năm qua, bổ sung thêm các tính năng mới như các quy trình mới và điều này đã
Ngôn ngữ Java: Truyền theo tham chiếu và truyền theo giá trị trong Java?
Tôi đang cố gắng đảo ngược mảng bitmap mà không sửa đổi mảng nguồn. Nhưng vấn đề là mảng nguồn cũng bị đảo ngược. Tôi đang làm gì đó sai hay tôi nên làm theo cách khác? Cảm ơn sự giúp đỡ của bạn. thư viện GalleryAdapter riêng tưAdapter;
Các quy tắc để gán biến 'chuyển theo tham chiếu'/'chuyển theo giá trị' trong Java là gì?
Vì vậy, liên quan đến việc truyền theo tham chiếu/truyền theo giá trị, cách các phương thức xử lý việc truyền tham số đã được ghi lại rõ ràng, nhưng còn việc gán biến thì sao? Ví dụ, tôi vừa viết một số mã trông như thế này: TreeNode parent = null;
Tập lệnh Python sử dụng pass để xử lý ngoại lệ và pass dường như không thể chạy bình thường.
Tôi đang viết một tập lệnh sẽ trình bày chi tiết các lệnh gọi chèn lấp từ hệ thống dấu hoa thị vào cơ sở dữ liệu ghi nhật ký MySQL của chúng tôi. Trong mã bên dưới, tôi đang cố gắng bỏ qua các khóa trùng lặp và tiếp tục đến dòng tiếp theo, nhưng khi mã này thực thi, tất cả những gì tôi thấy là dòng đầu tiên giả mạo cảnh báo và sau đó là chân trang
parameter-passing - Symfony: truyền tham số giữa các hành động (với lệnh chuyển hướng)
Tôi chuyển hướng từ một Hành động (executeProcess) sang một Hành động khác (executeIndex). Tôi muốn có thể truyền tham số/biến mà không cần sử dụng GET (ví dụ: $this->redirect('index', arra
oop - Câu hỏi thiết kế: vượt qua các trường bạn sử dụng hoặc truyền đối tượng?
Tôi thường thấy hai chiến lược xung đột nhau cho các giao diện phương thức, được tóm tắt đại khái như sau: // Mẫu 1: Truyền vào một đối tượng tính toán képTaxesOwed(TaxFo.
Thuật ngữ "vượt qua" hoặc "vượt qua" có ý nghĩa gì trong lệnh gọi lại JavaScript?
Hiện đang tìm hiểu ý nghĩa của lệnh gọi lại trong JavaScript, tôi đang cố gắng hiểu cách thức hoạt động của lệnh gọi lại và thuật ngữ "chuyển cái này" hoặc "chuyển cái đó" xuất phát từ đâu và nó hoạt động như thế nào với lệnh gọi lại? Tôi muốn hiển thị một số mã ví dụ
truyền tham số - Oracle Apex: Truy cập các thông số được truyền qua URL
Tôi chuyển tham số qua URL và trang được chuyển hướng chính xác. Làm cách nào để truy cập các tham số được truyền (từ trang trước) và có sẵn trong URL trên trang tiếp theo (được chuyển hướng)? Bất cứ ai có thể cho tôi biết làm thế nào để làm điều này? Hoặc có cách nào khác để truyền tham số giữa các trang không? Có cái gì giống như A
truyền tham số - Oracle Apex: Truy cập các thông số được truyền qua URL
Tôi chuyển tham số qua URL và trang được chuyển hướng chính xác. Làm cách nào để truy cập các tham số được truyền (từ trang trước) và có sẵn trong URL trên trang tiếp theo (được chuyển hướng)? Bất cứ ai có thể cho tôi biết làm thế nào để làm điều này? Hoặc có cách nào khác để truyền tham số giữa các trang không? Có cái gì giống như A
python - Sự khác nhau giữa truyền theo tham chiếu và truyền theo tên
Sự khác biệt giữa các kiểu truyền tham số truyền theo tham chiếu và truyền theo tên là gì? Đây là một ví dụ trong Python, nhưng giả sử chúng ta không sử dụng bất kỳ quy tắc Python nào: def P(x,y) toàn cầu iy=1 prin
Bạn có thể gọi pass từ pass LLVM không?
Tôi đang viết mật khẩu LLVM của riêng mình để sửa đổi mã bit LLVM. Trong khi tạo mã bit, tôi muốn tắt chức năng nội tuyến, nhưng khi tôi sửa đổi xong mã bit, tôi muốn gọi thẻ thực hiện chức năng nội tuyến. Điều này có ổn không? Nếu có thì làm thế nào? Để hiểu rõ hơn những gì tôi đang nói
c++ - Hàm mẫu: trộn từng bản sao và từng tham chiếu
Tôi có một hàm mẫu chịu trách nhiệm ghi các giá trị mẫu vào luồng. Nó trông như thế này: template void Write( T value, std::ostream& stream, endianness_t endian
Làm cách nào để thực hiện các lượt yosys từ lượt LLVM?
Tôi đang sử dụng hai chương trình, llvm's opt và Clifford Wolf's yosys, cả hai đều có giao diện vượt qua tương tự nhau. (Họ sử dụng các thư viện dùng chung để tối ưu hóa) Tôi muốn căn cứ vào ý kiến của mình
java - Truyền theo giá trị so với Truyền theo tham chiếu (sự khác biệt giữa hai giá trị này trong phân bổ không gian bộ nhớ)
Trong C++, nơi chúng ta sử dụng truyền theo tham chiếu, chúng ta tham chiếu đến địa chỉ mà chúng ta truyền từ tham số này sang tham số hàm, về cơ bản là một con trỏ, phải không? Vì vậy, mặc dù về cơ bản chúng giống nhau, bí danh và tất cả, nhưng không phải con trỏ cũng yêu cầu dung lượng bộ nhớ sao? Vì vậy, dù chúng ta đang ở đâu trong hàm tham số
Số nguyên C++ 64 bit: truyền theo tham chiếu hoặc truyền theo giá trị
Đây là câu hỏi hiệu quả về số nguyên 64 bit. Giả sử tôi không cần sửa đổi giá trị của tham số "int", tôi nên chuyển nó theo giá trị hoặc theo tham chiếu. Giả sử đó là máy 32 bit: 1) int 32 bit: Tôi đoán câu trả lời là "truyền theo giá trị", bởi vì "truyền theo tham chiếu" sẽ tạo ra

tôi là một con chim nhỏ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren AI

Trung tâm mua sắm