cuốn sách gpt4 ai đã làm

Intel Gaudi tăng tốc thế hệ được hỗ trợ

In lại Tác giả: Sahara Thời gian cập nhật: 26-06-2024 17:00:28 57 4
mua khóa gpt4 Nike

Khi quy mô của mô hình tăng lên, việc triển khai trí tuệ nhân tạo tổng quát đòi hỏi một lượng lớn tài nguyên suy luận. Điều này không chỉ làm tăng chi phí cho mỗi thế hệ mà còn làm tăng mức tiêu thụ điện năng dùng để đáp ứng các yêu cầu đó. Do đó, tối ưu hóa suy luận để tạo văn bản là rất quan trọng để giảm độ trễ, chi phí cơ sở hạ tầng và mức tiêu thụ điện năng, từ đó có thể cải thiện trải nghiệm người dùng và tăng hiệu quả của các tác vụ tạo văn bản.

Giải mã được hỗ trợ là một phương pháp phổ biến để tăng tốc quá trình tạo văn bản. Chúng tôi đã điều chỉnh và tối ưu hóa nó trên Intel Gaudi2 để hiệu năng của nó tương đương với GPU NVIDIA H100, như chúng tôi đã trình bày trong bài đăng trên blog trước đây, nhưng giá của Gaudi2 chỉ tương đương với GPU NVIDIA A100 80GB. Công việc này hiện được tích hợp vào Optimum Habana, mở rộng nhiều thư viện Ôm sát khác nhau như Transformers và Diffusers để tối ưu hóa hoàn toàn quy trình làm việc của người dùng trên bộ xử lý Intel Gaudi.

Lấy mẫu suy đoán - giải mã phụ trợ

Lấy mẫu suy đoán là một kỹ thuật được sử dụng để tăng tốc độ tạo văn bản. Nguyên tắc hoạt động của nó là sử dụng mô hình dự thảo để tạo K mã thông báo tại một thời điểm và sau đó mô hình mục tiêu sẽ đánh giá K mã thông báo được tạo này. Nếu mã thông báo ở một vị trí nhất định do mô hình dự thảo tạo ra bị từ chối thì mô hình đích sẽ được sử dụng để tạo mã thông báo ở vị trí đó và các mã thông báo tiếp theo do mô hình dự thảo tạo ra sẽ bị loại bỏ và quá trình trên được lặp lại cho đến khi kết thúc. Bằng cách sử dụng lấy mẫu suy đoán, bạn có thể tăng tốc độ tạo văn bản và có được chất lượng tạo tương đương với lấy mẫu tự hồi quy ban đầu. Khi sử dụng công nghệ này, người dùng có thể chỉ định mô hình dự thảo. Dữ liệu chứng minh rằng việc lấy mẫu suy đoán có thể mang lại tốc độ tăng gấp 2 lần cho các mô hình sử dụng máy biến áp lớn. Tóm lại, lấy mẫu suy đoán có thể tăng tốc độ tạo văn bản và cải thiện hiệu suất tạo văn bản trên bộ xử lý Intel Gaudi.

Tuy nhiên, kích thước bộ nhớ đệm KV của mô hình dự thảo và mô hình đích là khác nhau, do đó, điều đặc biệt quan trọng là phải tối ưu hóa cả hai mô hình một cách riêng biệt cùng một lúc. Trong bài báo này, chúng tôi giả định rằng mô hình đích là mô hình lượng tử hóa và sử dụng bộ đệm KV cũng như lấy mẫu suy đoán để tăng tốc mô hình. Xin lưu ý rằng ở đây mỗi kiểu máy đều có bộ đệm KV riêng. Chúng tôi sử dụng mô hình dự thảo để tạo mã thông báo K và sau đó đánh giá chúng bằng mô hình mục tiêu; khi mã thông báo do mô hình dự thảo tạo ra bị từ chối, mô hình mục tiêu sẽ được sử dụng để tạo mã thông báo tại các vị trí bị từ chối và loại bỏ các mã thông báo tiếp theo do mô hình dự thảo tạo ra; . mã thông báo; sau đó mô hình dự thảo tiếp tục tạo K mã thông báo tiếp theo, v.v.

Lưu ý rằng [2] chứng minh rằng việc thực hiện lấy mẫu suy đoán có thể khôi phục sự phân bố của mô hình đích - về mặt lý thuyết, điều này đảm bảo rằng việc lấy mẫu suy đoán có thể đạt được chất lượng lấy mẫu giống như lấy mẫu tự hồi quy của chính mô hình đích. Do đó, lý do không sử dụng lấy mẫu suy đoán chỉ là lợi ích, chẳng hạn như quy mô của mô hình dự thảo không có đủ lợi thế so sánh hoặc tỷ lệ chấp nhận mã thông báo do mô hình dự thảo tạo ra quá thấp.

Tạo được hỗ trợ là một kỹ thuật tương tự như lấy mẫu suy đoán và được phát minh độc lập cùng thời điểm với lấy mẫu suy đoán [3]. Tác giả của nó đã tích hợp phương thức này vào Hugging Face Transformers và hiện có một tham số Assistant_model tùy chọn trong phương thức .generate() của mô hình để cho phép tạo được hỗ trợ.

Cách sử dụng và thử nghiệm

Sử dụng thế hệ được hỗ trợ với Gaudi rất đơn giản và chúng tôi cung cấp một ví dụ ở đây.

Như tên cho thấy, tham số --assistant_model được sử dụng để chỉ định mô hình dự thảo. Mô hình dự thảo được sử dụng để tạo K token, sau đó được mô hình đích đánh giá. Khi mã thông báo do mô hình dự thảo tạo bị từ chối, mô hình đích sẽ tự tạo mã thông báo tại vị trí đó và loại bỏ mã thông báo sau vị trí do mô hình dự thảo tạo ra. Sau đó, mô hình dự thảo sẽ tạo ra K token tiếp theo, v.v. Tỷ lệ chấp nhận của một mô hình dự thảo phụ thuộc một phần vào việc lựa chọn mô hình và một phần vào văn bản đầu vào. Nhìn chung, việc phát điện được hỗ trợ tăng tốc các mô hình họ máy biến áp lớn lên khoảng 2 lần.

Tóm tắt

Gaudi hiện hỗ trợ người dùng với công cụ tạo văn bản được hỗ trợ dễ sử dụng để tăng tốc quá trình tạo văn bản mà người dùng có thể sử dụng để cải thiện hơn nữa hiệu suất của bộ xử lý Intel Gaudi. Phương pháp này dựa trên việc lấy mẫu suy đoán và đã được chứng minh là cải thiện hiệu quả hiệu suất của các mô hình sử dụng máy biến áp lớn.

Tài liệu tham khảo

[1] N. Shazeer, Giải mã máy biến áp nhanh: Một đầu ghi là tất cả những gì bạn cần, tháng 11 năm 2019, arXiv:1911.02150.

[2] C. Chen, S. Borgeaud, G. Irving, JB Lespiau, L. Sifre, J. Jumper, Tăng tốc giải mã mô hình ngôn ngữ lớn bằng lấy mẫu suy đoán, tháng 2 năm 2023, arXiv:2302.01318.

[3] J. Gante, Thế hệ được hỗ trợ: Hướng đi mới để tạo văn bản có độ trễ thấp, tháng 5 năm 2023, https://hf.co/blog/zh/assisted-thế hệ.


Văn bản gốc tiếng Anh: https://hf.co/blog/assisted-thế hệ-support-gaudi.

Tác giả gốc: Haim Barad, Tien Pei Chou.

Người phiên dịch: Matrix Yao (Yao Weifeng), Kỹ sư Deep Learning của Intel, đang nghiên cứu ứng dụng các mô hình dòng máy biến áp trên nhiều dữ liệu phương thức khác nhau cũng như đào tạo và suy luận về các mô hình quy mô lớn.

Cuối cùng, bài viết về thế hệ hỗ trợ tăng tốc Intel Gaudi kết thúc tại đây. Nếu bạn muốn biết thêm về thế hệ hỗ trợ tăng tốc Intel Gaudi, vui lòng tìm kiếm các bài viết của CFSDN hoặc tiếp tục duyệt các bài viết liên quan. Tôi hy vọng bạn sẽ ủng hộ blog của tôi trong tương lai. ! .

57 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress