cuốn sách gpt4 ai đã làm

Điểm chuẩn đánh giá tự động | Thiết kế nhiệm vụ đánh giá tự động của bạn

In lại Tác giả: Sahara Thời gian cập nhật: 26-12-2024 22:49:42 57 4
mua khóa gpt4 Nike

Thiết kế nhiệm vụ đánh giá tự động của bạn

Đây là bài thứ 2 trong loạt bài viết về đánh giá tự động điểm chuẩn. Mời bạn theo dõi loạt bài.

  • cơ sở khái niệm
  • Thiết kế nhiệm vụ đánh giá tự động của bạn
  • Một số giá trị kiểm tra bộ
  • Tip và Tip

Choose data file

Khi thực hiện đánh giá, bạn có thể chọn hiện dữ liệu (tham khảo một số trang đánh giá dữ liệu) làm kiểm tra tập tin hoặc bạn có thể thiết kế dữ liệu của riêng mình. Giá cả có mối liên kết chặt chẽ với chất lượng của dữ liệu được đánh giá.

Use a current data file

Rất khuyến khích đọc phần này một cách thận trọng .

Các vấn đề cần quan tâm với dữ liệu

Ai đã tạo ra mẫu? đại loại như sau: xây dựng dữ liệu chuyên sâu > ghi chú dữ liệu phải trả tiền > có dữ liệu nguồn gốc từ cộng đồng > MTurk data. của dữ liệu, điều này có thể giúp hiểu được ngôn ngữ đa dạng của dữ liệu.

  • Các mẫu đã được chú thích hoặc tác giả khác chưa xem xét? Bạn cần phải tìm ra nó trước đó:

    • Kết quả chú thích của các chú thích khác nhau có ít nhất quán không?
    • Đầy đủ dữ liệu đã được các tác giả xem xét chưa?
      Người chú thích thường không phải là người bản ngữ của ngôn ngữ đích (ví dụ: AWS Mechanical Turk), nếu không, họ có thể mắc lỗi chính tả, lỗi ngữ pháp hoặc câu trả lời vô nghĩa.
  • Người chú thích có được hướng dẫn rõ ràng về cách tạo dữ liệu không? Nói cách khác, các tiêu chuẩn ghi nhãn có nhất quán giữa các mẫu tập dữ liệu không?

Kiểm tra mẫu

Chọn ngẫu nhiên 50 mẫu để kiểm tra thủ công:

  • Kiểm tra chất lượng:
    • Câu hỏi có rõ ràng và rõ ràng không?
    • Câu trả lời tương ứng có đúng không? ( Ví dụ: TriviaQA thường chứa nhiều câu trả lời tiêu chuẩn cho mỗi câu hỏi và đôi khi những câu trả lời này xung đột với nhau. )
    • Thông tin có đầy đủ không? ( Ví dụ: MMLU có nhiều câu hỏi thiếu sơ đồ tham khảo. )
  • Kiểm tra sự phụ thuộc của nhiệm vụ:
    • Các câu hỏi mẫu có phải là loại câu hỏi cho một nhiệm vụ đánh giá LLM cụ thể không?
    • Các mẫu có liên quan đến các trường hợp thử nghiệm không?

Số lượng mẫu tập dữ liệu cũng quan trọng không kém (để đảm bảo rằng các kết quả điểm chuẩn đánh giá tự động có ý nghĩa thống kê, thường cần ít nhất 100 mẫu thử nghiệm).

Thiết kế bộ dữ liệu của riêng bạn

Có 3 phương pháp thiết kế:

Tích hợp dữ liệu

Để đánh giá khả năng thực hiện một tác vụ cụ thể của mô hình bằng bộ thử nghiệm của riêng bạn, bạn có thể đối chiếu và tổng hợp nó từ các nguồn dữ liệu sẵn có khác nhau. Trên thực tế, có nhiều bộ kiểm tra đánh giá được xây dựng theo cách này, chẳng hạn như MATH và LSAT tổng hợp các bộ dữ liệu đánh giá con người. Tất nhiên, khi sắp xếp dữ liệu của bạn, vui lòng làm theo các bước kiểm tra chất lượng và mức độ liên quan của nhiệm vụ ở trên.

Chú thích thủ công

Về nội dung chú thích của con người, hướng dẫn này có phần giới thiệu chi tiết khá dài, bạn có thể nhấp vào Sử dụng con người chú thích để tự đọc.

dữ liệu tổng hợp

  • Phần tổng hợp sử dụng LLM này các bạn có thể tham khảo blog Cosmopedia của nhân viên HF nhé! Mặc dù bài viết này tập trung vào cách xây dựng tập huấn luyện nhưng các ý tưởng và kỹ thuật cũng có thể áp dụng để xây dựng tập kiểm tra. Bộ kiểm tra tổng hợp vẫn cần được kiểm tra thủ công (làm theo các bước trên).

  • Tổng hợp dựa trên quy tắc là một phương pháp tuyệt vời để thu được các mẫu thử nghiệm gần như không giới hạn và tránh ô nhiễm dữ liệu nếu nhiệm vụ cho phép. Tham khảo NPHardEval, DyVal, MuSR, BabiQA, v.v.

Chọn phương pháp suy luận

Ngoài bộ kiểm tra, bạn cũng cần chọn phương pháp suy luận phù hợp.

Đối với các bài tập trả lời câu hỏi trắc nghiệm (thường dùng để kiểm tra kiến thức hoặc khả năng phân biệt của mô hình), sử dụng log-probability (MCQA) rất hiệu quả.

  • Thuận lợi:
    • Nó được đảm bảo rằng tất cả các mô hình có thể có được câu trả lời chính xác.
    • Khả năng cung cấp proxy "độ tin cậy" của mô hình (cũng như hiệu chuẩn).
    • Tốc độ đánh giá nhanh, đặc biệt đối với các tác vụ dự đoán mã thông báo đơn (chọn chỉ mục A/B/C/D hoặc Có/Không, v.v.).
    • Cho phép thu được tín hiệu về hiệu suất nhiệm vụ của các mô hình nhỏ.
  • Nhược điểm:
    • Có thể đánh giá quá cao hiệu suất của các mô hình nhỏ. Nếu không có hạn chế nào, nội dung do mô hình tạo ra sẽ vượt quá phạm vi tùy chọn.
    • Kết quả lượng có thể không mang tính đại diện. tự có nhiều lựa chọn.

Đối với các nhiệm vụ kiểm tra tính lưu loát, lý luận hoặc khả năng trả lời câu hỏi của mô hình, việc sử dụng thế hệ QA rất hiệu quả.

  • Thuận lợi:
    • Phù hợp với mối quan tâm của con người, đó là khả năng LLM tạo ra văn bản trôi.
  • Nhược điểm:
    • Có thể gặp khó khăn khi tính điểm (xem bên dưới data phần).
    • Chi phí cao hơn một chút để đánh giá khả năng ghi nhật ký, đặc biệt đối với các mẫu yêu cầu tìm kiếm nhiệm vụ.

Chọn lời nhắc

Các vấn đề chính về thiết kế nhanh:

  • Lượng thông tin được cung cấp cho mô hình về nhiệm vụ
  • Cách cung cấp thông tin cho mô hình

Mô hình thiết kế lời nhắc chung cho các nhiệm vụ MCQA hoặc QA thường bao gồm các phần sau:

  • Nhiệm vụ lời nhắc (tùy chọn): Nhiệm vụ mô tả.
  • Bối cảnh: Cung cấp thêm thông tin cơ bản cho câu hỏi.
    • Ví dụ: Đối với nội dung nhiệm vụ sum họp hoặc trích xuất thông tin, nguồn nội dung có thể được cung cấp
  • Câu hỏi: Nội dung cốt lõi của lời nhắc.
  • Đối với các thử nghiệm đánh giá nhiệm vụ, có thể bổ sung các tùy chọn.
  • liên kết (câu hỏi,bối cảnh,OptionChờ đợi).

Những điều cần lưu ý khi có lời nhắc xác định:

  • Ngay lập tức những thay đổi rất nhỏ trong lời nhắc tương thích về mặt nghĩa cũng có thể dẫn đến kết quả rất khác nhau (xem Khả năng tái tạo giải quyết sự cố để biết chi tiết) Lời nhắc khác nhau phần) và lời nhắc định dạng cũng có thể hoạt động ở đầu ra của một mô hình.
    • Làm cách nào để giảm thiểu vấn đề này:
      • Phương pháp tiếp cận chi phí cao: nhiều cách đánh giá sử dụng các biến thể có thể đáp ứng theo từng thời điểm khác nhau.
      • Phương pháp chi phí thấp: Sử dụng nhiều nhắc nhở kiểu để chỉ định nhiều thử nghiệm mẫu có độ khó tương thích với giá đánh giá một lần.
  • Các ví dụ có thể được thêm vào thông báo nhắc nhở qua các kết nối.
  • Lưu ý rằng mô hình có thể có xu hướng phù hợp quá mức với một số định dạng nhanh nhất.
    • Bài viết này khám phá điều này chi tiết hơn, tìm thấy một số mô hình hoạt động tốt hơn qua thử nghiệm Format Giá điểm quá cao do trang bị quá mức.
    • LLM Leaderboard 2, Llama 3.2 và Qwen 2.5 không còn cung cấp định dạng nhắc nhở cho các ví dụ về một số cảnh quay vì lý do này.
  • Đối với một số thử nghiệm nhiệm vụ chỉ số, bạn có thể muốn giới hạn kết quả đầu ra của mô hình ở một vi phạm nhỏ.
    Bạn có thể chuyển đến trang Suy luận và đánh giá Mô hình Force đầu ra của mô hình Phần để biết thêm thông tin.

Bấm vào các giá trị đánh giá chỉ

Nếu bạn tập trung vào đánh giá ký hiệu xác thực, số liệu bạn mong đợi sẽ đơn giản: độ chính xác (tầng suất) chọn tùy chọn tốt nhất). Nếu hết, bạn muốn chuẩn hóa (thứ dữ liệu) will return nên phức tạp, thu hồi hoặc điểm F1.

Với đánh giá tổng hợp, bạn sẽ mong đợi một số lượng dữ liệu vi phạm lớn hơn đối với điều này mà bạn cần:

  1. Xác định số đo của các kết quả được tạo, so sánh trực tiếp các kết quả được tạo ra hay sử dụng một số phương pháp để chuẩn hóa trước đó.
    • Nhưng nhìn chung, họ đều cung cấp tín hiệu ở cấp độ nhiệm vụ.
    • Tiêu chuẩn hóa hóa rất quan trọng đối với một số nhiệm vụ nhất định (ngoài giới hạn như đánh giá khả năng học toán) vì bạn có thể cần phải trích xuất hợp lệ kết quả từ đầu ra được định dạng.
    • Nếu bạn muốn đánh giá độ chính xác bằng cách bổ sung các cơ chế như suy nghĩ chuỗi thì việc chuẩn hóa cũng quan trọng không nguy hiểm vì bạn cần loại bỏ dấu vết suy luận khỏi kết quả thực tế.
  2. Xác định kết quả được tạo ra như thế nào để trả lời câu hỏi tham khảo.
    Bạn có thể sử dụng bất kỳ phương pháp so sánh nào. tiền tố, vv; thêm các đánh giá chỉ số.

Nói chung, việc lựa chọn thước đo giá nào sẽ phụ thuộc vào nội dung nhiệm vụ của bạn. lĩnh vực (như y tế, chatbot), bạn có thể không muốn đánh giá hiệu suất trung bình mà cần đánh giá hiệu suất gần nhất (tiếc (Bạn có thể kiểm tra blog này để tìm hiểu thêm).

Nhiệm vụ mới thông tin: Kiểm tra chức năng là gì?

Đối với mã miền, rõ ràng là việc đánh giá nghĩa của mã được tạo là chưa đủ, người ta phải kiểm tra mã thực hiện như thế nào. đoạn mã được tạo bởi một dấu nhắc nhanh nhất, hãy kiểm tra và đánh giá giá trị của dữ liệu có thể vượt qua bài kiểm tra đơn vị một cách chính xác hay không.

Phương pháp thử nghiệm chức năng cực kỳ hứa hẹn vì:

  • Giúp tạo các trường hợp kiểm tra một cách dễ dàng hơn (trong hầu hết các trường hợp, các trường hợp kiểm tra có thể được tạo dựa trên quy tắc)
  • Giảm trang quá mức
  • Một mô hình có thể được đánh giá về khả năng của công cụ chủ

.

IFEval là một ví dụ điển hình, nó là giá trị tiêu chuẩn được sử dụng để kiểm tra khả năng làm theo hướng dẫn của mô hình, bằng cách tạo nhiều định dạng hướng dẫn (ví dụ: thêm một số ký hiệu đặc biệt được chỉ Ý tưởng Việc kiểm tra các chức năng vẫn cần nhiều công việc hơn để có thể mở rộng các tính năng thử nghiệm khác!


Văn bản gốc tiếng Anh: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/designing-your-automatic-evaluation.md.

Tác giả gốc: clefourrier.

Người phiên dịch: SuSung-boy.

Đánh giá bởi: adeenayakup.

Cuối cùng, bài viết này về đánh giá chuẩn tự động | ở đây. hoặc tiếp tục duyệt các bài viết liên quan. Sẽ hỗ trợ blog của tôi trong tương lai!

57 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress