4.7 延迟与成本优化
介绍如何优化工作流程的延迟和成本,并确定优化时机。
4.7 延迟与成本优化
在系统输出质量达到要求后,下一个优化重点是:优化工作流程的延迟和成本。
需要强调的是,对于早期团队而言,高质量的输出,比延迟与价格重要得多,不应该首先把时间花在延迟与价格优化上。等系统已经运行良好之后,才应该将精力转向延迟优化;只有当系统有了大量用户,成本成了问题之后,才是开始集中优化成本的理想时机。
- 优化延迟与速度的方法
优化延迟的关键在于进行计时基准测试,找出工作流程中的瓶颈。
- 计时分析: 详细记录工作流程中每个步骤所花费的时间(例如:LLM 1 耗时 7 秒,LLM 3 耗时 18 秒)。
- 定位瓶颈: 通过时间线分析,确定耗时最长的组件,从而确定最大的提速空间。
- 优化手段:
- 并行化: 考虑将一些像是网页抓取之类的,可以独立进行的步骤并行执行。
- 更换 LLM: 尝试使用更小、更快(尽管可能稍不智能)的模型,或者测试不同的 LLM 提供商,以找到返回 token 最快的服务。
- 优化成本的方法
优化成本的关键在于进行成本基准测试,找出最昂贵的步骤。
- 成本计算: 计算工作流程中每个步骤的平均成本:
- LLM: 按输入和输出的 Token 长度收费。
- API: 按调用次数收费。
- 计算/服务: 根据服务器容量、服务费等计算。
- 定位瓶颈: 确定成本贡献最大的组件。
- 优化手段: 寻找更便宜的组件或 LLM 来替代高成本的组件,以最大化成本优化机会。