Điểm chuẩn đánh giá tự động | Thiết kế nhiệm vụ đánh giá tự động của bạn

In lại Tác giả: Sahara Thời gian cập nhật: 26-12-2024 22:49:42

Thiết kế nhiệm vụ đánh giá tự động của bạn

Đây là bài thứ 2 trong loạt bài viết về đánh giá tự động điểm chuẩn. Mời bạn theo dõi loạt bài.

cơ sở khái niệm

Thiết kế nhiệm vụ đánh giá tự động của bạn

Một số giá trị kiểm tra bộ

Tip và Tip

Choose data file

Khi thực hiện đánh giá, bạn có thể chọn hiện dữ liệu (tham khảo một số trang đánh giá dữ liệu) làm kiểm tra tập tin hoặc bạn có thể thiết kế dữ liệu của riêng mình. Giá cả có mối liên kết chặt chẽ với chất lượng của dữ liệu được đánh giá.

Use a current data file

Rất khuyến khích đọc phần này một cách thận trọng .

Các vấn đề cần quan tâm với dữ liệu

Ai đã tạo ra mẫu? đại loại như sau: xây dựng dữ liệu chuyên sâu > ghi chú dữ liệu phải trả tiền > có dữ liệu nguồn gốc từ cộng đồng > MTurk data. của dữ liệu, điều này có thể giúp hiểu được ngôn ngữ đa dạng của dữ liệu.

Các mẫu đã được chú thích hoặc tác giả khác chưa xem xét? Bạn cần phải tìm ra nó trước đó:
- Kết quả chú thích của các chú thích khác nhau có ít nhất quán không?
- Đầy đủ dữ liệu đã được các tác giả xem xét chưa?
  Người chú thích thường không phải là người bản ngữ của ngôn ngữ đích (ví dụ: AWS Mechanical Turk), nếu không, họ có thể mắc lỗi chính tả, lỗi ngữ pháp hoặc câu trả lời vô nghĩa.
Người chú thích có được hướng dẫn rõ ràng về cách tạo dữ liệu không? Nói cách khác, các tiêu chuẩn ghi nhãn có nhất quán giữa các mẫu tập dữ liệu không?

Kiểm tra mẫu

Chọn ngẫu nhiên 50 mẫu để kiểm tra thủ công:

Kiểm tra chất lượng:
- Câu hỏi có rõ ràng và rõ ràng không?
- Câu trả lời tương ứng có đúng không? ( Ví dụ: TriviaQA thường chứa nhiều câu trả lời tiêu chuẩn cho mỗi câu hỏi và đôi khi những câu trả lời này xung đột với nhau. )
- Thông tin có đầy đủ không? ( Ví dụ: MMLU có nhiều câu hỏi thiếu sơ đồ tham khảo. )
Kiểm tra sự phụ thuộc của nhiệm vụ:
- Các câu hỏi mẫu có phải là loại câu hỏi cho một nhiệm vụ đánh giá LLM cụ thể không?
- Các mẫu có liên quan đến các trường hợp thử nghiệm không?

Số lượng mẫu tập dữ liệu cũng quan trọng không kém (để đảm bảo rằng các kết quả điểm chuẩn đánh giá tự động có ý nghĩa thống kê, thường cần ít nhất 100 mẫu thử nghiệm).

Thiết kế bộ dữ liệu của riêng bạn

Có 3 phương pháp thiết kế:

Tích hợp dữ liệu

Để đánh giá khả năng thực hiện một tác vụ cụ thể của mô hình bằng bộ thử nghiệm của riêng bạn, bạn có thể đối chiếu và tổng hợp nó từ các nguồn dữ liệu sẵn có khác nhau. Trên thực tế, có nhiều bộ kiểm tra đánh giá được xây dựng theo cách này, chẳng hạn như MATH và LSAT tổng hợp các bộ dữ liệu đánh giá con người. Tất nhiên, khi sắp xếp dữ liệu của bạn, vui lòng làm theo các bước kiểm tra chất lượng và mức độ liên quan của nhiệm vụ ở trên.

Chú thích thủ công

Về nội dung chú thích của con người, hướng dẫn này có phần giới thiệu chi tiết khá dài, bạn có thể nhấp vào Sử dụng con người chú thích để tự đọc.

dữ liệu tổng hợp

Phần tổng hợp sử dụng LLM này các bạn có thể tham khảo blog Cosmopedia của nhân viên HF nhé! Mặc dù bài viết này tập trung vào cách xây dựng tập huấn luyện nhưng các ý tưởng và kỹ thuật cũng có thể áp dụng để xây dựng tập kiểm tra. Bộ kiểm tra tổng hợp vẫn cần được kiểm tra thủ công (làm theo các bước trên).
Tổng hợp dựa trên quy tắc là một phương pháp tuyệt vời để thu được các mẫu thử nghiệm gần như không giới hạn và tránh ô nhiễm dữ liệu nếu nhiệm vụ cho phép. Tham khảo NPHardEval, DyVal, MuSR, BabiQA, v.v.

Chọn phương pháp suy luận

Ngoài bộ kiểm tra, bạn cũng cần chọn phương pháp suy luận phù hợp.

Đối với các bài tập trả lời câu hỏi trắc nghiệm (thường dùng để kiểm tra kiến thức hoặc khả năng phân biệt của mô hình), sử dụng log-probability (MCQA) rất hiệu quả.

Thuận lợi:
- Nó được đảm bảo rằng tất cả các mô hình có thể có được câu trả lời chính xác.
- Khả năng cung cấp proxy "độ tin cậy" của mô hình (cũng như hiệu chuẩn).
- Tốc độ đánh giá nhanh, đặc biệt đối với các tác vụ dự đoán mã thông báo đơn (chọn chỉ mục A/B/C/D hoặc Có/Không, v.v.).
- Cho phép thu được tín hiệu về hiệu suất nhiệm vụ của các mô hình nhỏ.
Nhược điểm:
- Có thể đánh giá quá cao hiệu suất của các mô hình nhỏ. Nếu không có hạn chế nào, nội dung do mô hình tạo ra sẽ vượt quá phạm vi tùy chọn.
- Kết quả lượng có thể không mang tính đại diện. tự có nhiều lựa chọn.

Đối với các nhiệm vụ kiểm tra tính lưu loát, lý luận hoặc khả năng trả lời câu hỏi của mô hình, việc sử dụng thế hệ QA rất hiệu quả.

Thuận lợi:
- Phù hợp với mối quan tâm của con người, đó là khả năng LLM tạo ra văn bản trôi.
Nhược điểm:
- Có thể gặp khó khăn khi tính điểm (xem bên dưới data phần).
- Chi phí cao hơn một chút để đánh giá khả năng ghi nhật ký, đặc biệt đối với các mẫu yêu cầu tìm kiếm nhiệm vụ.

Chọn lời nhắc

Các vấn đề chính về thiết kế nhanh:

Lượng thông tin được cung cấp cho mô hình về nhiệm vụ
Cách cung cấp thông tin cho mô hình

Mô hình thiết kế lời nhắc chung cho các nhiệm vụ MCQA hoặc QA thường bao gồm các phần sau:

Nhiệm vụ lời nhắc (tùy chọn): Nhiệm vụ mô tả.
Bối cảnh: Cung cấp thêm thông tin cơ bản cho câu hỏi.
- Ví dụ: Đối với nội dung nhiệm vụ sum họp hoặc trích xuất thông tin, nguồn nội dung có thể được cung cấp
Câu hỏi: Nội dung cốt lõi của lời nhắc.
Đối với các thử nghiệm đánh giá nhiệm vụ, có thể bổ sung các tùy chọn.
liên kết (câu hỏi,bối cảnh,OptionChờ đợi).

Những điều cần lưu ý khi có lời nhắc xác định:

Ngay lập tức những thay đổi rất nhỏ trong lời nhắc tương thích về mặt nghĩa cũng có thể dẫn đến kết quả rất khác nhau (xem Khả năng tái tạo giải quyết sự cố để biết chi tiết) Lời nhắc khác nhau phần) và lời nhắc định dạng cũng có thể hoạt động ở đầu ra của một mô hình.
- Làm cách nào để giảm thiểu vấn đề này:
  - Phương pháp tiếp cận chi phí cao: nhiều cách đánh giá sử dụng các biến thể có thể đáp ứng theo từng thời điểm khác nhau.
  - Phương pháp chi phí thấp: Sử dụng nhiều nhắc nhở kiểu để chỉ định nhiều thử nghiệm mẫu có độ khó tương thích với giá đánh giá một lần.
Các ví dụ có thể được thêm vào thông báo nhắc nhở qua các kết nối.
Lưu ý rằng mô hình có thể có xu hướng phù hợp quá mức với một số định dạng nhanh nhất.
- Bài viết này khám phá điều này chi tiết hơn, tìm thấy một số mô hình hoạt động tốt hơn qua thử nghiệm Format Giá điểm quá cao do trang bị quá mức.
- LLM Leaderboard 2, Llama 3.2 và Qwen 2.5 không còn cung cấp định dạng nhắc nhở cho các ví dụ về một số cảnh quay vì lý do này.
Đối với một số thử nghiệm nhiệm vụ chỉ số, bạn có thể muốn giới hạn kết quả đầu ra của mô hình ở một vi phạm nhỏ.
Bạn có thể chuyển đến trang Suy luận và đánh giá Mô hình Force đầu ra của mô hình Phần để biết thêm thông tin.

Bấm vào các giá trị đánh giá chỉ

Nếu bạn tập trung vào đánh giá ký hiệu xác thực, số liệu bạn mong đợi sẽ đơn giản: độ chính xác (tầng suất) chọn tùy chọn tốt nhất). Nếu hết, bạn muốn chuẩn hóa (thứ dữ liệu) will return nên phức tạp, thu hồi hoặc điểm F1.

Với đánh giá tổng hợp, bạn sẽ mong đợi một số lượng dữ liệu vi phạm lớn hơn đối với điều này mà bạn cần:

Xác định số đo của các kết quả được tạo, so sánh trực tiếp các kết quả được tạo ra hay sử dụng một số phương pháp để chuẩn hóa trước đó.
- Nhưng nhìn chung, họ đều cung cấp tín hiệu ở cấp độ nhiệm vụ.
- Tiêu chuẩn hóa hóa rất quan trọng đối với một số nhiệm vụ nhất định (ngoài giới hạn như đánh giá khả năng học toán) vì bạn có thể cần phải trích xuất hợp lệ kết quả từ đầu ra được định dạng.
- Nếu bạn muốn đánh giá độ chính xác bằng cách bổ sung các cơ chế như suy nghĩ chuỗi thì việc chuẩn hóa cũng quan trọng không nguy hiểm vì bạn cần loại bỏ dấu vết suy luận khỏi kết quả thực tế.
Xác định kết quả được tạo ra như thế nào để trả lời câu hỏi tham khảo.
Bạn có thể sử dụng bất kỳ phương pháp so sánh nào. tiền tố, vv; thêm các đánh giá chỉ số.

Nói chung, việc lựa chọn thước đo giá nào sẽ phụ thuộc vào nội dung nhiệm vụ của bạn. lĩnh vực (như y tế, chatbot), bạn có thể không muốn đánh giá hiệu suất trung bình mà cần đánh giá hiệu suất gần nhất (tiếc (Bạn có thể kiểm tra blog này để tìm hiểu thêm).

Nhiệm vụ mới thông tin: Kiểm tra chức năng là gì?

Đối với mã miền, rõ ràng là việc đánh giá nghĩa của mã được tạo là chưa đủ, người ta phải kiểm tra mã thực hiện như thế nào. đoạn mã được tạo bởi một dấu nhắc nhanh nhất, hãy kiểm tra và đánh giá giá trị của dữ liệu có thể vượt qua bài kiểm tra đơn vị một cách chính xác hay không.

Phương pháp thử nghiệm chức năng cực kỳ hứa hẹn vì:

Giúp tạo các trường hợp kiểm tra một cách dễ dàng hơn (trong hầu hết các trường hợp, các trường hợp kiểm tra có thể được tạo dựa trên quy tắc)
Giảm trang quá mức
Một mô hình có thể được đánh giá về khả năng của công cụ chủ

IFEval là một ví dụ điển hình, nó là giá trị tiêu chuẩn được sử dụng để kiểm tra khả năng làm theo hướng dẫn của mô hình, bằng cách tạo nhiều định dạng hướng dẫn (ví dụ: thêm một số ký hiệu đặc biệt được chỉ Ý tưởng Việc kiểm tra các chức năng vẫn cần nhiều công việc hơn để có thể mở rộng các tính năng thử nghiệm khác!

Văn bản gốc tiếng Anh: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/designing-your-automatic-evaluation.md.

Tác giả gốc: clefourrier.

Người phiên dịch: SuSung-boy.

Đánh giá bởi: adeenayakup.

Cuối cùng, bài viết này về đánh giá chuẩn tự động | ở đây. hoặc tiếp tục duyệt các bài viết liên quan. Sẽ hỗ trợ blog của tôi trong tương lai!

Bài viết khuyến nghị: Lập trình đồng thời - tạo, xử lý sự cố và giải quyết quy tắc

Bài viết khuyến nghị: PostgreSQL

Bài viết khuyến nghị: Ghi chú phát triển phần cứng (32): Design set source TPS54331 (5): xuất bảng BOM sơ đồ, xác minh bao bì linh kiện

Bài viết khuyến nghị: Chế độ thiết kế chính - chế độ trang trí

người dùng giao diện - Sự khác biệt giữa thiết kế tương tác, thiết kế trực quan, thiết kế web, thiết kế UX, thiết kế người dùng giao diện, phát triển giao diện người dùng là gì?
đóng cửa câu hỏi này cần tập trung hơn. Đã đóng 4 cái này chưa? before. Cải thiện câu hỏi này
wpf - UnresolvedAssemblyException trong Blend chỉ dành cho Chế độ xem thiết kế VS - Hoạt động tốt trong Chế độ xem thiết kế VS
.NET Framework: 4.5.1 của mình trong VS, nó sẽ tải và chạy tốt.
dịch vụ web - Design URL RESTful: API công khai và riêng tư, phân cấp API thiết kế mẫu, URI và URL thiết kế?
Tôi thường gặp câu hỏi này, rất giống với Thiết kế URL RESTful phân cấp Giải thích sử dụng dịch vụ chỉ cung cấp cho người dùng tải lên tài liệu lên POST, GET/tài khoản PUT, DELETE/a
Thiết kế, không thể đăng
Trong ứng dụng Rails, tôi sử dụng thiết kế để quản lý người dùng của mình, liên kết tôi sử dụng để hủy bỏ Links của tôi là :delete, :clas
Thiết kế:Đổi mật khẩu
Tôi đã bị kẹt hơn 24 giờ khi cố gắng thực hiện các giải pháp khác được đăng ở đây nhưng tôi không thể làm cho nó đã hoạt động. Tôi mới làm quen với Rails và cần trợ giúp! động để tôi có thể thay đổi người dùng một cách đơn giản
Thiết kế - thời gian chờ không hoạt động
Devise sẽ không hết thời gian chờ cho người dùng nếu: người dùng đăng nhập, đóng tab và sau đó truy cập URL lại trong thời gian chờ + X phút. new/nhấp. điều này có ý nghĩa
Thiết kế WPF thanh trượt
Tôi muốn sử dụng một thanh trượt như thế này. được cung cấp cho it. này.
Thiết kế WCF - một đối tượng được yêu cầu và phản hồi hay nhiều đối tượng?
Nếu tôi sử dụng điều này trong tất cả các phương thức, tôi sẽ chỉ có 5 thứ khác nhau trong đối tượng yêu cầu dịch nhiệm vụ của mình vì tôi sử dụng cùng một đầu vào cho hầu hết tất cả các phương thức phản hồi. will only one dict
Thiết kế RESTful - Cách cài đặt mô hình đính kèm tệp đính kèm cho các thực thể
Tôi đang cố gắng lập mô hình đính kèm tệp cho các thực thể trong REST. đính kèm theo. file file...).
sql - Design - Mô hình thứ sáu
Tôi có bảng sau: Blogs { BlogName } BlogPosts { BlogName, PostTitle } Bài đăng trên blog mô hình cả một thực thể và một mối quan hệ, không hợp lệ theo 6nf (theo khai thông báo thứ ba).
Thiết kế OOP - nhiều đối tượng, mỗi đối tượng có tương tác duy nhất với một giới hạn tập hợp của các đối tượng đối tượng khác
Nếu lớp A có tương tác duy nhất với mỗi lớp B, C và D thì mã cho tương tác là A hay B, C và D? Ví dụ: nhấp chuột EMP
Thiết kế + Omniauth + ghi nhớ_me
Theo wiki này, bạn cần bao gồm những điều sau đây trong OmniauthCallbacksController: Remember_me(user)
đa luồng - Sử dụng không toàn bộ luồng các thành phần với đa luồng (thiết kế) các thành phần
Vấn đề về thiết kế: Sử dụng các thành phần không theo luồng toàn bộ (bộ sưu tập, API,...) trong/với đa thành phần luồng... Ví dụ: Thành phần 1: Máy chủ đa luồng gửi tin nhắn đến tin nhắn xử lý... Thành phần 2: tin nhắn xử lý tin nhắn không toàn theo luồng
XML Design Design - Bằng cách nào?
Chúng tôi hiện đang thiết kế một ứng dụng RESTful. Tôi có câu hỏi sau đây liên quan đến công việc thiết kế/ập mô hình ứng dụng dữ liệu bằng XML Các cách để mô hình hóa. Dữ liệu trong XML là gì? Bắt đầu lại từ đầu
XSD Design - một hoặc nhiều quy tắc
Tôi đang thiết kế XSD mới để lấy thông tin từ các doanh nghiệp hoạt động. cung cấp giá trị cho ít nhất một loại điểm. Tôi có những điều sau đây:
Design API - Các phương pháp hay nhất và hỗ trợ nhiều phiên bản
Tốt nhất là thiết kế API hỗ trợ nhiều phiên bản. bất kỳ lược đồ nào tham khảo bản đồ, hướng dẫn nào cũng sẽ rất hữu ích.
Design REST để tải tập tin lên
đóng cửa. Câu hỏi này dựa trên ý kiến. câu hỏi này có tốt không? Đã đóng cửa 4 năm trước.
Bố cục/thiết kế PHP
Tôi muốn tạo một trang web bằng php hoạt động giống như https://www.bitcoins.lc/. cùng bố trí trên mỗi trang nhưng nội dung thay đổi khi bạn thay đổi liên kết/trang
Java xoay thiết kế
Tôi có câu hỏi về cách viết Swing UI. đầu tiên tôi có ba nút (Mới, Tùy chọn, Thoát). trong nội dung sang khung khác.
docker - Kiến trúc/thiết kế Kubernetes/?
Docker thuộc sở hữu của một ứng dụng sang Kubernetes. Những người thứ hai như thiết kế Pod, nhà phân phối, phát triển khai. một nhóm có một vùng chứa ứng dụng và duy nhất web trong đó, nhưng

sa mạc Sahara

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất xuất sắc!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

trung tâm mua sắm