Intel Gaudi tăng tốc thế hệ được hỗ trợ

In lại Tác giả: Sahara Thời gian cập nhật: 26-06-2024 17:00:28

Khi quy mô của mô hình tăng lên, việc triển khai trí tuệ nhân tạo tổng quát đòi hỏi một lượng lớn tài nguyên suy luận. Điều này không chỉ làm tăng chi phí cho mỗi thế hệ mà còn làm tăng mức tiêu thụ điện năng dùng để đáp ứng các yêu cầu đó. Do đó, tối ưu hóa suy luận để tạo văn bản là rất quan trọng để giảm độ trễ, chi phí cơ sở hạ tầng và mức tiêu thụ điện năng, từ đó có thể cải thiện trải nghiệm người dùng và tăng hiệu quả của các tác vụ tạo văn bản.

Giải mã được hỗ trợ là một phương pháp phổ biến để tăng tốc quá trình tạo văn bản. Chúng tôi đã điều chỉnh và tối ưu hóa nó trên Intel Gaudi2 để hiệu năng của nó tương đương với GPU NVIDIA H100, như chúng tôi đã trình bày trong bài đăng trên blog trước đây, nhưng giá của Gaudi2 chỉ tương đương với GPU NVIDIA A100 80GB. Công việc này hiện được tích hợp vào Optimum Habana, mở rộng nhiều thư viện Ôm sát khác nhau như Transformers và Diffusers để tối ưu hóa hoàn toàn quy trình làm việc của người dùng trên bộ xử lý Intel Gaudi.

Lấy mẫu suy đoán - giải mã phụ trợ

Lấy mẫu suy đoán là một kỹ thuật được sử dụng để tăng tốc độ tạo văn bản. Nguyên tắc hoạt động của nó là sử dụng mô hình dự thảo để tạo K mã thông báo tại một thời điểm và sau đó mô hình mục tiêu sẽ đánh giá K mã thông báo được tạo này. Nếu mã thông báo ở một vị trí nhất định do mô hình dự thảo tạo ra bị từ chối thì mô hình đích sẽ được sử dụng để tạo mã thông báo ở vị trí đó và các mã thông báo tiếp theo do mô hình dự thảo tạo ra sẽ bị loại bỏ và quá trình trên được lặp lại cho đến khi kết thúc. Bằng cách sử dụng lấy mẫu suy đoán, bạn có thể tăng tốc độ tạo văn bản và có được chất lượng tạo tương đương với lấy mẫu tự hồi quy ban đầu. Khi sử dụng công nghệ này, người dùng có thể chỉ định mô hình dự thảo. Dữ liệu chứng minh rằng việc lấy mẫu suy đoán có thể mang lại tốc độ tăng gấp 2 lần cho các mô hình sử dụng máy biến áp lớn. Tóm lại, lấy mẫu suy đoán có thể tăng tốc độ tạo văn bản và cải thiện hiệu suất tạo văn bản trên bộ xử lý Intel Gaudi.

Tuy nhiên, kích thước bộ nhớ đệm KV của mô hình dự thảo và mô hình đích là khác nhau, do đó, điều đặc biệt quan trọng là phải tối ưu hóa cả hai mô hình một cách riêng biệt cùng một lúc. Trong bài báo này, chúng tôi giả định rằng mô hình đích là mô hình lượng tử hóa và sử dụng bộ đệm KV cũng như lấy mẫu suy đoán để tăng tốc mô hình. Xin lưu ý rằng ở đây mỗi kiểu máy đều có bộ đệm KV riêng. Chúng tôi sử dụng mô hình dự thảo để tạo mã thông báo K và sau đó đánh giá chúng bằng mô hình mục tiêu; khi mã thông báo do mô hình dự thảo tạo ra bị từ chối, mô hình mục tiêu sẽ được sử dụng để tạo mã thông báo tại các vị trí bị từ chối và loại bỏ các mã thông báo tiếp theo do mô hình dự thảo tạo ra; . mã thông báo; sau đó mô hình dự thảo tiếp tục tạo K mã thông báo tiếp theo, v.v.

Lưu ý rằng [2] chứng minh rằng việc thực hiện lấy mẫu suy đoán có thể khôi phục sự phân bố của mô hình đích - về mặt lý thuyết, điều này đảm bảo rằng việc lấy mẫu suy đoán có thể đạt được chất lượng lấy mẫu giống như lấy mẫu tự hồi quy của chính mô hình đích. Do đó, lý do không sử dụng lấy mẫu suy đoán chỉ là lợi ích, chẳng hạn như quy mô của mô hình dự thảo không có đủ lợi thế so sánh hoặc tỷ lệ chấp nhận mã thông báo do mô hình dự thảo tạo ra quá thấp.

Tạo được hỗ trợ là một kỹ thuật tương tự như lấy mẫu suy đoán và được phát minh độc lập cùng thời điểm với lấy mẫu suy đoán [3]. Tác giả của nó đã tích hợp phương thức này vào Hugging Face Transformers và hiện có một tham số Assistant_model tùy chọn trong phương thức .generate() của mô hình để cho phép tạo được hỗ trợ.

Cách sử dụng và thử nghiệm

Sử dụng thế hệ được hỗ trợ với Gaudi rất đơn giản và chúng tôi cung cấp một ví dụ ở đây.

Như tên cho thấy, tham số --assistant_model được sử dụng để chỉ định mô hình dự thảo. Mô hình dự thảo được sử dụng để tạo K token, sau đó được mô hình đích đánh giá. Khi mã thông báo do mô hình dự thảo tạo bị từ chối, mô hình đích sẽ tự tạo mã thông báo tại vị trí đó và loại bỏ mã thông báo sau vị trí do mô hình dự thảo tạo ra. Sau đó, mô hình dự thảo sẽ tạo ra K token tiếp theo, v.v. Tỷ lệ chấp nhận của một mô hình dự thảo phụ thuộc một phần vào việc lựa chọn mô hình và một phần vào văn bản đầu vào. Nhìn chung, việc phát điện được hỗ trợ tăng tốc các mô hình họ máy biến áp lớn lên khoảng 2 lần.

Tóm tắt

Gaudi hiện hỗ trợ người dùng với công cụ tạo văn bản được hỗ trợ dễ sử dụng để tăng tốc quá trình tạo văn bản mà người dùng có thể sử dụng để cải thiện hơn nữa hiệu suất của bộ xử lý Intel Gaudi. Phương pháp này dựa trên việc lấy mẫu suy đoán và đã được chứng minh là cải thiện hiệu quả hiệu suất của các mô hình sử dụng máy biến áp lớn.

Tài liệu tham khảo

[1] N. Shazeer, Giải mã máy biến áp nhanh: Một đầu ghi là tất cả những gì bạn cần, tháng 11 năm 2019, arXiv:1911.02150.

[2] C. Chen, S. Borgeaud, G. Irving, JB Lespiau, L. Sifre, J. Jumper, Tăng tốc giải mã mô hình ngôn ngữ lớn bằng lấy mẫu suy đoán, tháng 2 năm 2023, arXiv:2302.01318.

[3] J. Gante, Thế hệ được hỗ trợ: Hướng đi mới để tạo văn bản có độ trễ thấp, tháng 5 năm 2023, https://hf.co/blog/zh/assisted-thế hệ.

Văn bản gốc tiếng Anh: https://hf.co/blog/assisted-thế hệ-support-gaudi.

Tác giả gốc: Haim Barad, Tien Pei Chou.

Người phiên dịch: Matrix Yao (Yao Weifeng), Kỹ sư Deep Learning của Intel, đang nghiên cứu ứng dụng các mô hình dòng máy biến áp trên nhiều dữ liệu phương thức khác nhau cũng như đào tạo và suy luận về các mô hình quy mô lớn.

Cuối cùng, bài viết về thế hệ hỗ trợ tăng tốc Intel Gaudi kết thúc tại đây. Nếu bạn muốn biết thêm về thế hệ hỗ trợ tăng tốc Intel Gaudi, vui lòng tìm kiếm các bài viết của CFSDN hoặc tiếp tục duyệt các bài viết liên quan. Tôi hy vọng bạn sẽ ủng hộ blog của tôi trong tương lai. ! .

Bài viết khuyến nghị: Biểu đồ hoạt ảnh tùy chỉnh của Android

Bài viết khuyến nghị: Sau khi UE4 được đóng gói và phát hành, hãy truy cập các tệp không phải tài sản trên nền tảng Windows và Android

Bài viết khuyến nghị: Cửa sổ nhỏ, phép thuật lớn, dịch vụ cửa sổ trực tiếp kiểm soát những thay đổi thông tin quan trọng trong thời gian thực

Bài viết khuyến nghị: Thư viện điều khiển WPFUI mã nguồn mở, miễn phí, phong cách hiện đại-ModernWpf

python — Tải Intel MKL không thành công. Intel MKL: Không thể tải libmkl_core.dylib
Tôi đang cố gắng thiết lập một tệp để viết AI bằng PyCharm. tôi chạy mã: $ import t
CPU - Intel
Tôi đã tìm kiếm trong một thời gian dài và như không thể tìm thấy con số chính thức/kết luận nào để báo giá Intel Xeon Quad có thể thực hiện. Tôi có CPU Intel Xeon Quad Core E5530. muốn nó đếm tôi
CPU GPU Intel: Tần sử dụng ma trận toán được phép
Clearing information GPU cực cao và số lượng lớn, các nhà nghiên cứu có thể đạt được kết quả từ việc đào tạo hình nhanh hơn. Đồng thời, CPU bị giới hạn bởi số lượng lõi nhỏ và các tính năng được phép mất nhiều thời gian để chạy.
Chủ đề Intel SGX và TCS
tôi hiểu chính xác, TCS cho phép nhiều bộ xử lý logic vào cùng một vùng.
lắp ráp - Máy phân tích Intel IACA thay đổi lắp ráp?
Tôi muốn chạy một số mã thông qua trình mô tả IACA để xem nó sử dụng bao nhiêu uops - tôi bắt đầu với một hàm đơn đơn giản để xem nó có hoạt động không. như vậy, bất kỳ phần nào của nó đều bị cắt bỏ
bảo mật - Giấy phép nhà phát triển Intel SGX và phần mềm nguồn mở
Có thể lấy chứng chỉ nhà phát triển được cấp phép để ký kết các phần mềm nhị phân mã hóa SGX, nguồn mở cộng đồng Phát triển, đã được kiểm tra bảo mật ở chế độ sản xuất và xuất bản chúng trong kho lưu trữ nguồn mở như apt hoặc vòng/phút không? Mình vừa hỏi bên Intel SGX thì họ bảo chỉ có kinh nghiệm thôi
cổng -Lệnh Intel 8080: OUT
Intel 8080, nhưng tôi bị kẹt với hướng dẫn này OUT D8, theo cuốn sách Lập trình ngữ pháp Intel 8080/8085 có ghi OUT
fortran - Phân chia bổ sung trong Intel FORTRAN
Tôi phát hiện ra sự cố khi làm việc với một số FORTRAN mã hiện có. Phóng to mảng trước khi phân chia lại nó nhưng điều này không cần thiết trong thời gian này. Nhưng nó không hoạt động bình thường.
fortran - Intel Fortran
Tôi đang cố gắng điều chỉnh các loại dữ liệu sau trong bộ nhớ: type foo real, allocatable, Dimension(:) :: bar1, bar2 !dir$ attribute al
gpl - TBB được phép của Intel
đóng cửa câu hỏi này. cập nhật câu hỏi để nó phù hợp với chủ đề về Stack Overflow.
đa luồng - Intel SFENCE có định nghĩa hành động không?
Có vẻ như định nghĩa được chấp nhận về ngữ nghĩa thu được và phát hành là thế này: (Trích dẫn từ http://msdn.microsoft.com/en-us/library/windows/hardware/ff540496(v=vs.85).a
đa luồng - TBB sơ đồ chi phí của Intel
Đây là nỗ lực của tôi để đánh giá hiệu suất biểu đồ TBB của Intel. Đây là thiết lập: một nút phát sóng. continue_msg đến N nút kế thừa (một nút phát sóng kế tiếp được thực hiện được phép tính bị mất).
javascript - intel xdk - phía máy chủ
Câu hỏi đầu tiên: Tôi phát triển các ứng dụng sử dụng css3, HTML5, JavaScript. lấy dữ liệu từ cơ sở dữ liệu.
Hiệu suất - CPU Intel cung cấp phản hồi dự kiến dự kiến?
Trong Hướng dẫn sử dụng Intel tập 3, không chứa mô tả về phần cứng sự kiện đếm: BACLEAR_FORCE_IQ Count number BACLEAR lần bị Insép
javascript - Intel xdk base data
Xin chào, tôi đang phát triển một ứng dụng sử dụng Intel xdk. đang cố gắng chèn cơ sở dữ liệu vào cơ sở dữ liệu của mình bằng Php MySQL. lỗi như thế này [
Intel C++ - Tối ưu hóa thông báo
Intel C++ Intel C++ thông báo từ mức độ ưu tiên hay không. trình biên dịch chỉ trong cơ sở dữ liệu thứ cấp như chưa được sử dụng
lắp ráp - Phát triển lắp ráp Intel AVX2
Để tối ưu hóa, tôi sử dụng tập lệnh AVX2. Môi trường phát triển của tôi:- Hệ điều hành:- Win 7 (64-bit) IDE:- MSVS 2008 (Giáo sư) C
fortran - Thuộc tính giá trị Intel Fortran
Fortran của tôi không tốt lắm. Tôi đang chuyển một số mã Fortran cũ và định nghĩa chương trình này được tìm thấy: SUBROUTINE SET_HYDROMODULE(HYDRO
cordova - Intel XDK + Phonegap
Xin vui lòng, tôi có thể tích hợp API Intel và ngược lại. Câu trả lời hay nhất là có, nếu tôi hiểu đúng
mount ráp - Tham chiếu opcode Intel x86?
Sách hướng dẫn dành cho nhà phát triển phần mềm Intel không thú vị lắm khi tìm kiếm... Câu trả lời hay nhất Truy vấn t

sa mạc Sahara

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất xuất sắc!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

trung tâm mua sắm

Intel Gaudi tăng tốc thế hệ được hỗ trợ

Lấy mẫu suy đoán - giải mã phụ trợ

Cách sử dụng và thử nghiệm

Tóm tắt

Tài liệu tham khảo