Để LLM đánh giá | Đánh giá kết quả đánh giá của bạn

In lại 作者：撒哈拉更新时间：2025-02-11 23:16:04

55

4

评估你的评估结果

这是让 LLM 来评判系列文章的第三篇，敬请关注系列文章

基础概念

选择 LLM 评估模型

设计你自己的评估 prompt

评估你的评估结果

奖励模型相关内容

技巧与提示

在生产中或大规模使用 LLM 评估模型之前，你需要先评估它在目标任务的表现效果如何，确保它的评分跟期望的任务表现一致.

注：如果评估模型的输出结果是二元分类，那么评估会相对简单，因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率)。但如果输出是在某个范围内的分数，评估起来就会困难一些，因为模型输出和参考答案的相关性指标很难与分数映射的非常准确.

在选定 LLM 评估模型以及设计 prompt 之后，还需要:

1. 选择基线

你需要将选定模型的评估结果与基线对比。基线可以是很多种类型，如：人工标注结果、标准答案、其他表现良好评估模型的结果、其他 prompt 对应模型的输出，等等.

测试用例的数量不需要非常多 (50 个足矣)，但必须极具代表性 (例如边缘用例)、区分性、并且质量足够高.

2. 选择评估指标

评估指标是用来比较评估结果和参考标准之间的差距的.

通常来说，如果比较对象是模型的二元分类或成对比较属性，评估指标计算起来就非常容易，因为一般使用召回率 (二元分类)、准确率 (成对比较)、和精确率作为评估指标，这些指标容易理解、且具有可解释性.

如果比较对象是模型得分与人类评分，则计算指标就会困难一些。如要深入理解可以阅读这篇博客.

总的来说，如果你不清楚如何选择合适的评估指标或者评估模型，可以参考这篇博客中的图表 ⭐.

3. 评估你的评估结果

这一步你只需用评估模型和测试 prompt 来评估在样本上的表现，拿到评估结果之后使用上一步选定的评估指标计算分数即可.

你需要确定一个阈值来决定结果归属，阈值大小取决于你的任务难度。例如成对比较任务的准确率指标可以设为 80% 到 95%，再比如评分排名任务的相关性指标，文献中经常使用 0.8 的皮尔逊相关系数，不过也有一些论文认为 0.3 足以表明与人工评估的相关性良好。所以标准不是死的，根据任务灵活调整吧！。

> 英文原文: https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/evaluating-your-evaluator.md > 。

原文作者: clefourrier 。

译者: SuSung-boy 。

审校: adeenayakup 。

最后此篇关于让LLM来评判|评估你的评估结果的文章就讲到这里了,如果你想了解更多关于让LLM来评判|评估你的评估结果的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

55

4

0

Bài viết được đề xuất: Triển khai bộ đếm thời gian của thư viện mạng Anoii

Bài viết được đề xuất: Cơ bản về LangChain (05)

Bài viết được đề xuất: Thực hành RocketMQ—10. Tối ưu hóa mã hệ thống tiếp thị

Bài viết được đề xuất: Mẫu Memento

LangChain simple llm.predict trong Angular trả về kết quả rỗng (Lang Chain Simple llm. Trong góc dự đoán trả về kết quả rỗng)
在我的Angel 16(独立的)应用程序中，我有一个简单的服务来测试LangChain和OpenAI。同样的代码在NodeJS应用程序中运行得非常好，然而，当从角度运行时，OpenAI返回的结果总是空
C# sử dụng các vectơ nhúng từ và cơ sở dữ liệu vectơ để tăng cường bộ nhớ dài hạn cho các mô hình ngôn ngữ lớn (LLM) để triển khai các rô-bốt trả lời câu hỏi miền riêng tư và thay thế giao diện openai
------------恢复内容开始------------ 在上一篇文章中我们大致讲述了一下如何通过词嵌入向量的方式为大语言模型增加长期记忆，用于落地在私域场景的问题。其中涉及到使用
LLM-01大模型本地部署运行ChatGLM2-6B-INT4(6GB)简单上手环境配置单机单卡多卡2070Super8GBx2打怪升级！
搬迁说明之前在 CSDN 上发文章，一直想着努力发一些好的文章出来！这篇文章在 2024-04-17 10:11:55 已在 CSDN 发布写在前面其他显卡环境也可以！但是最少要有8GB的
python - 实现 LangChain 的 OpenAI LLM wrapper 时遇到这个属性错误的原因是什么？
这是我在这里的第一篇文章。我正在使用 PyQt5 构建一个 Python 窗口应用程序，该应用程序实现与 OpenAI 完成端点的交互。到目前为止，我自己编写的任何代码都运行良好，而且我已经到了想要开
python - 实现 LangChain 的 OpenAI LLM wrapper 时遇到这个属性错误的原因是什么？
这是我在这里的第一篇文章。我正在使用 PyQt5 构建一个 Python 窗口应用程序，该应用程序实现与 OpenAI 完成端点的交互。到目前为止，我自己编写的任何代码都运行良好，而且我已经到了想要开

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

Để LLM đánh giá | Đánh giá kết quả đánh giá của bạn

评估你的评估结果

1. 选择基线

2. 选择评估指标

3. 评估你的评估结果