1.4 Agentic AI的益处
介绍 Agentic AI 的三大益处:性能飞跃、并行加速、模块化设计。
1.4 Agentic AI的益处
- 性能飞跃(Much Better Performance)
- 并行加速(Faster than Humans because of Parallelization)
- 模块化设计(Modular: Can Add/Update/Swap Components)
一、 性能跃升 (Much Better Performance)
智能体工作流带来的性能提升,远超单纯升级模型版本(如从GPT-3.5到GPT-4)所带来的进步
测试目的: 评估不同语言模型编写代码的能力。
实证案例:HumanEval 编码基准测试 Coding Benchmark (HumanEval) 展示的是不同 AI 系统在编程任务上的表现——重点是对比 Non-agentic 和 Agentic的能力差异。 横轴 → 是“通过率”(正确完成编程题目的比例),从 40% 到 100%,越高越好。 纵轴 → 区分模型版本:GPT-3.5 vs GPT-4(GPT-4 更强)。
非智能体模式 (Non-agentic):
- GPT-3.5 直接生成代码,正确率约为 48%。
- GPT-4 直接生成代码,正确率提升至 67%。 智能体模式 (Agentic):
- 将 GPT-3.5 置于智能体工作流中(例如,让它先写代码,再自我反思、分析并改进),其性能可以显著提升,达到甚至超过 GPT-4 的水平。
- 同样,将 GPT-4 置于智能体工作流中,其表现也会比单独使用时更加出色。
在编程这个硬核任务上,有没有“agentic”,决定了 AI 是“码农”还是“架构师”。
二、并行加速 (Faster than Humans because of Parallelization)
核心概念: 智能体工作流能够并行处理任务,从而比人类更快地完成特定工作。
实例演示: 以“撰写一篇关于黑洞的论文”为例。
- 人类方式: 需要顺序地进行搜索、阅读网页、再搜索、再阅读,效率低下。
- 智能体工作流方式:
- 并行搜索: 可以同时启动三个 LLM 实例,各自生成不同的搜索关键词并执行网络搜索。
- 并行抓取: 基于每次搜索的结果,每个 LLM 可以再并行抓取多个网页内容。
- 最终整合: 将所有并行获取的信息汇总,输入给一个 LLM 来撰写最终的论文。
- 结果: 虽然整个流程步骤更多,但由于大量的并行操作(如图示中的9个并行网页下载),其总耗时反而比人类顺序操作快得多。
三、模块化与可替换性 (Modular: can add or update tools, swap out models)
核心概念: 智能体工作流是高度模块化的,允许开发者自由地添加、更新工具或替换模型。
- 实践应用:
- 替换工具: 例如,在“网络搜索”这个环节,可以轻松地将默认的搜索引擎替换为 Serper、Bing、Dr. Google 或专门为 AI 设计的工具。
- 切换功能: 可以将通用的“web search”替换为“news search”,以便获取最新的科学突破资讯。
- 优化模型: 不必在所有步骤中使用同一个 LLM。可以根据不同步骤的需求,尝试不同的模型提供商,选择在该步骤表现最佳的模型,从而优化整个系统的表现。