Agentic AI 教程

4.4 组件级评估

介绍组件级评估的优势,以及如何构建和使用组件级评估进行高效调优。

4.4 组件级评估

在上一节中,我们通过错误分析确定了要改进的单个组件,那么之后就是引入组件级评估针对性改进。

端到端评估和组件级评估的关系有些类似端到端测试/集成测试与单元测试:

  • 端到端评估成本高昂,即使是更换搜索引擎这样的小改动,都需要重新运行整个复杂的工作流程进行端到端评估,时间和金钱成本很高。同时,其他组件的随机性或噪声可能会掩盖被改进组件带来的微小、增量改进。
  • 组件级评估更高效, 信号更清晰,避免了整体系统的复杂性带来的噪声。还适用于团队分工: 如果有多个团队分别负责不同组件,每个团队可以自行维护指标。

接下来,我们以研究Agent的网页搜索为例,构建组件级评估。

  • 问题: 错误分析表明研究代理遗漏关键点的问题主要出在网页搜索组件上。
  • 构建评估方法:
    • 创建测试样例: 针对少数几个查询,请人类专家提供一份黄金标准网页资源列表,即最权威、最应该找到的网页。
    • 编写评估代码: 使用信息检索领域的标准指标(如 F1 分数),编写代码来衡量网页搜索的输出列表与黄金标准列表之间的重叠程度。
  • 用途:
    • 利用这个指标,开发者可以快速高效地调整网页搜索组件的参数或超参数,如更换搜索引擎、更改结果数量、调整日期范围。
    • 快速实现增量改进:在调优过程中,可以快速判断网页搜索质量是否提高。

组件级评估与端到端评估的关系与顺序如下:

  1. 通过错误分析确定一个问题组件(如网页搜索)。
  2. 构建和使用组件级评估来高效地进行调优和增量改进。
  3. 在调优后,运行最终的端到端评估,以验证组件的改进确实提升了整个系统的整体性能。

On this page