- VisualStudio2022
- pprof-Hướng dẫn sử dụng nó trong bản mạng trực tiếp
- Triển khai C# các loại hộp chọn nhiều màu lựa chọn thả xuống, cây lựa chọn nhiều màu lựa chọn thả xuống và các nút tối đa
- [Ghi chú học tập] Cơ sở dữ liệu cấu trúc: cat tree
Đây là bài thứ 2 trong loạt bài viết về đánh giá tự động điểm chuẩn. Mời bạn theo dõi loạt bài.
- cơ sở khái niệm
- Thiết kế nhiệm vụ đánh giá tự động của bạn
- Một số giá trị kiểm tra bộ
- Tip và Tip
Khi thực hiện đánh giá, bạn có thể chọn hiện dữ liệu (tham khảo một số trang đánh giá dữ liệu) làm kiểm tra tập tin hoặc bạn có thể thiết kế dữ liệu của riêng mình. Giá cả có mối liên kết chặt chẽ với chất lượng của dữ liệu được đánh giá.
Rất khuyến khích đọc phần này một cách thận trọng .
Ai đã tạo ra mẫu? đại loại như sau: xây dựng dữ liệu chuyên sâu > ghi chú dữ liệu phải trả tiền > có dữ liệu nguồn gốc từ cộng đồng > MTurk data. của dữ liệu, điều này có thể giúp hiểu được ngôn ngữ đa dạng của dữ liệu.
Các mẫu đã được chú thích hoặc tác giả khác chưa xem xét? Bạn cần phải tìm ra nó trước đó:
Người chú thích có được hướng dẫn rõ ràng về cách tạo dữ liệu không? Nói cách khác, các tiêu chuẩn ghi nhãn có nhất quán giữa các mẫu tập dữ liệu không?
Chọn ngẫu nhiên 50 mẫu để kiểm tra thủ công:
Số lượng mẫu tập dữ liệu cũng quan trọng không kém (để đảm bảo rằng các kết quả điểm chuẩn đánh giá tự động có ý nghĩa thống kê, thường cần ít nhất 100 mẫu thử nghiệm).
Có 3 phương pháp thiết kế:
Để đánh giá khả năng thực hiện một tác vụ cụ thể của mô hình bằng bộ thử nghiệm của riêng bạn, bạn có thể đối chiếu và tổng hợp nó từ các nguồn dữ liệu sẵn có khác nhau. Trên thực tế, có nhiều bộ kiểm tra đánh giá được xây dựng theo cách này, chẳng hạn như MATH và LSAT tổng hợp các bộ dữ liệu đánh giá con người. Tất nhiên, khi sắp xếp dữ liệu của bạn, vui lòng làm theo các bước kiểm tra chất lượng và mức độ liên quan của nhiệm vụ ở trên.
Về nội dung chú thích của con người, hướng dẫn này có phần giới thiệu chi tiết khá dài, bạn có thể nhấp vào Sử dụng con người chú thích để tự đọc.
Phần tổng hợp sử dụng LLM này các bạn có thể tham khảo blog Cosmopedia của nhân viên HF nhé! Mặc dù bài viết này tập trung vào cách xây dựng tập huấn luyện nhưng các ý tưởng và kỹ thuật cũng có thể áp dụng để xây dựng tập kiểm tra. Bộ kiểm tra tổng hợp vẫn cần được kiểm tra thủ công (làm theo các bước trên).
Tổng hợp dựa trên quy tắc là một phương pháp tuyệt vời để thu được các mẫu thử nghiệm gần như không giới hạn và tránh ô nhiễm dữ liệu nếu nhiệm vụ cho phép. Tham khảo NPHardEval, DyVal, MuSR, BabiQA, v.v.
Ngoài bộ kiểm tra, bạn cũng cần chọn phương pháp suy luận phù hợp.
Đối với các bài tập trả lời câu hỏi trắc nghiệm (thường dùng để kiểm tra kiến thức hoặc khả năng phân biệt của mô hình), sử dụng log-probability (MCQA) rất hiệu quả.
Đối với các nhiệm vụ kiểm tra tính lưu loát, lý luận hoặc khả năng trả lời câu hỏi của mô hình, việc sử dụng thế hệ QA rất hiệu quả.
data
phần).Các vấn đề chính về thiết kế nhanh:
Mô hình thiết kế lời nhắc chung cho các nhiệm vụ MCQA hoặc QA thường bao gồm các phần sau:
câu hỏi
,bối cảnh
,Option
Chờ đợi).Những điều cần lưu ý khi có lời nhắc xác định:
Lời nhắc khác nhau
phần) và lời nhắc định dạng cũng có thể hoạt động ở đầu ra của một mô hình.
Force đầu ra của mô hình
Phần để biết thêm thông tin.Nếu bạn tập trung vào đánh giá ký hiệu xác thực, số liệu bạn mong đợi sẽ đơn giản: độ chính xác (tầng suất) chọn tùy chọn tốt nhất). Nếu hết, bạn muốn chuẩn hóa (thứ dữ liệu) will return nên phức tạp, thu hồi hoặc điểm F1.
Với đánh giá tổng hợp, bạn sẽ mong đợi một số lượng dữ liệu vi phạm lớn hơn đối với điều này mà bạn cần:
Nói chung, việc lựa chọn thước đo giá nào sẽ phụ thuộc vào nội dung nhiệm vụ của bạn. lĩnh vực (như y tế, chatbot), bạn có thể không muốn đánh giá hiệu suất trung bình mà cần đánh giá hiệu suất gần nhất (tiếc (Bạn có thể kiểm tra blog này để tìm hiểu thêm).
Đối với mã miền, rõ ràng là việc đánh giá nghĩa của mã được tạo là chưa đủ, người ta phải kiểm tra mã thực hiện như thế nào. đoạn mã được tạo bởi một dấu nhắc nhanh nhất, hãy kiểm tra và đánh giá giá trị của dữ liệu có thể vượt qua bài kiểm tra đơn vị một cách chính xác hay không.
Phương pháp thử nghiệm chức năng cực kỳ hứa hẹn vì:
.
IFEval là một ví dụ điển hình, nó là giá trị tiêu chuẩn được sử dụng để kiểm tra khả năng làm theo hướng dẫn của mô hình, bằng cách tạo nhiều định dạng hướng dẫn (ví dụ: thêm một số ký hiệu đặc biệt được chỉ Ý tưởng Việc kiểm tra các chức năng vẫn cần nhiều công việc hơn để có thể mở rộng các tính năng thử nghiệm khác!
Văn bản gốc tiếng Anh: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/designing-your-automatic-evaluation.md.
Tác giả gốc: clefourrier.
Người phiên dịch: SuSung-boy.
Đánh giá bởi: adeenayakup.
Cuối cùng, bài viết này về đánh giá chuẩn tự động | ở đây. hoặc tiếp tục duyệt các bài viết liên quan. Sẽ hỗ trợ blog của tôi trong tương lai!
đóng cửa câu hỏi này cần tập trung hơn. Đã đóng 4 cái này chưa? before. Cải thiện câu hỏi này
.NET Framework: 4.5.1 của mình trong VS, nó sẽ tải và chạy tốt.
Tôi thường gặp câu hỏi này, rất giống với Thiết kế URL RESTful phân cấp Giải thích sử dụng dịch vụ chỉ cung cấp cho người dùng tải lên tài liệu lên POST, GET/tài khoản PUT, DELETE/a
Trong ứng dụng Rails, tôi sử dụng thiết kế để quản lý người dùng của mình, liên kết tôi sử dụng để hủy bỏ Links của tôi là :delete, :clas
Tôi đã bị kẹt hơn 24 giờ khi cố gắng thực hiện các giải pháp khác được đăng ở đây nhưng tôi không thể làm cho nó đã hoạt động. Tôi mới làm quen với Rails và cần trợ giúp! động để tôi có thể thay đổi người dùng một cách đơn giản
Devise sẽ không hết thời gian chờ cho người dùng nếu: người dùng đăng nhập, đóng tab và sau đó truy cập URL lại trong thời gian chờ + X phút. new/nhấp. điều này có ý nghĩa
Tôi muốn sử dụng một thanh trượt như thế này. được cung cấp cho it. này.
Nếu tôi sử dụng điều này trong tất cả các phương thức, tôi sẽ chỉ có 5 thứ khác nhau trong đối tượng yêu cầu dịch nhiệm vụ của mình vì tôi sử dụng cùng một đầu vào cho hầu hết tất cả các phương thức phản hồi. will only one dict
Tôi đang cố gắng lập mô hình đính kèm tệp cho các thực thể trong REST. đính kèm theo. file file...).
Tôi có bảng sau: Blogs { BlogName } BlogPosts { BlogName, PostTitle } Bài đăng trên blog mô hình cả một thực thể và một mối quan hệ, không hợp lệ theo 6nf (theo khai thông báo thứ ba).
Nếu lớp A có tương tác duy nhất với mỗi lớp B, C và D thì mã cho tương tác là A hay B, C và D? Ví dụ: nhấp chuột EMP
Theo wiki này, bạn cần bao gồm những điều sau đây trong OmniauthCallbacksController: Remember_me(user)
Vấn đề về thiết kế: Sử dụng các thành phần không theo luồng toàn bộ (bộ sưu tập, API,...) trong/với đa thành phần luồng... Ví dụ: Thành phần 1: Máy chủ đa luồng gửi tin nhắn đến tin nhắn xử lý... Thành phần 2: tin nhắn xử lý tin nhắn không toàn theo luồng
Chúng tôi hiện đang thiết kế một ứng dụng RESTful. Tôi có câu hỏi sau đây liên quan đến công việc thiết kế/ập mô hình ứng dụng dữ liệu bằng XML Các cách để mô hình hóa. Dữ liệu trong XML là gì? Bắt đầu lại từ đầu
Tôi đang thiết kế XSD mới để lấy thông tin từ các doanh nghiệp hoạt động. cung cấp giá trị cho ít nhất một loại điểm. Tôi có những điều sau đây:
Tốt nhất là thiết kế API hỗ trợ nhiều phiên bản. bất kỳ lược đồ nào tham khảo bản đồ, hướng dẫn nào cũng sẽ rất hữu ích.
đóng cửa. Câu hỏi này dựa trên ý kiến. câu hỏi này có tốt không? Đã đóng cửa 4 năm trước.
Tôi muốn tạo một trang web bằng php hoạt động giống như https://www.bitcoins.lc/. cùng bố trí trên mỗi trang nhưng nội dung thay đổi khi bạn thay đổi liên kết/trang
Tôi có câu hỏi về cách viết Swing UI. đầu tiên tôi có ba nút (Mới, Tùy chọn, Thoát). trong nội dung sang khung khác.
Docker thuộc sở hữu của một ứng dụng sang Kubernetes. Những người thứ hai như thiết kế Pod, nhà phân phối, phát triển khai. một nhóm có một vùng chứa ứng dụng và duy nhất web trong đó, nhưng
Tôi là một lập trình viên xuất sắc, rất xuất sắc!