- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章
- 基础概念
- 选择 LLM 评估模型
- 设计你自己的评估 prompt
- 评估你的评估结果
- 奖励模型相关内容
- 技巧与提示
在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的任务表现一致.
注:如果评估模型的输出结果是二元分类,那么评估会相对简单,因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率)。但如果输出是在某个范围内的分数,评估起来就会困难一些,因为模型输出和参考答案的相关性指标很难与分数映射的非常准确.
在选定 LLM 评估模型以及设计 prompt 之后,还需要:
你需要将选定模型的评估结果与基线对比。基线可以是很多种类型,如:人工标注结果、标准答案、其他表现良好评估模型的结果、其他 prompt 对应模型的输出,等等.
测试用例的数量不需要非常多 (50 个足矣),但必须极具代表性 (例如边缘用例)、区分性、并且质量足够高.
评估指标是用来比较评估结果和参考标准之间的差距的.
通常来说,如果比较对象是模型的二元分类或成对比较属性,评估指标计算起来就非常容易,因为一般使用召回率 (二元分类)、准确率 (成对比较)、和精确率作为评估指标,这些指标容易理解、且具有可解释性.
如果比较对象是模型得分与人类评分,则计算指标就会困难一些。如要深入理解可以阅读 这篇博客.
总的来说,如果你不清楚如何选择合适的评估指标或者评估模型,可以参考 这篇博客 中的 图表 ⭐.
这一步你只需用评估模型和测试 prompt 来评估在样本上的表现,拿到评估结果之后使用上一步选定的评估指标计算分数即可.
你需要确定一个阈值来决定结果归属,阈值大小取决于你的任务难度。例如成对比较任务的准确率指标可以设为 80% 到 95%,再比如评分排名任务的相关性指标,文献中经常使用 0.8 的皮尔逊相关系数,不过也有一些论文认为 0.3 足以表明与人工评估的相关性良好。所以标准不是死的,根据任务灵活调整吧! 。
> 英文原文: https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/evaluating-your-evaluator.md > 。
原文作者: clefourrier 。
译者: SuSung-boy 。
审校: adeenayakup 。
最后此篇关于让LLM来评判|评估你的评估结果的文章就讲到这里了,如果你想了解更多关于让LLM来评判|评估你的评估结果的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
在我的Angel 16(独立的)应用程序中,我有一个简单的服务来测试LangChain和OpenAI。同样的代码在NodeJS应用程序中运行得非常好,然而,当从角度运行时,OpenAI返回的结果总是空
------------恢复内容开始------------ 在上一篇 文章 中我们大致讲述了一下如何通过词嵌入向量的方式为大语言模型增加长期记忆,用于落地在私域场景的问题。其中涉及到使用
搬迁说明 之前在 CSDN 上发文章,一直想着努力发一些好的文章出来!这篇文章在 2024-04-17 10:11:55 已在 CSDN 发布 写在前面 其他显卡环境也可以!但是最少要有8GB的
这是我在这里的第一篇文章。我正在使用 PyQt5 构建一个 Python 窗口应用程序,该应用程序实现与 OpenAI 完成端点的交互。到目前为止,我自己编写的任何代码都运行良好,而且我已经到了想要开
这是我在这里的第一篇文章。我正在使用 PyQt5 构建一个 Python 窗口应用程序,该应用程序实现与 OpenAI 完成端点的交互。到目前为止,我自己编写的任何代码都运行良好,而且我已经到了想要开
Tôi là một lập trình viên xuất sắc, rất giỏi!