1.5 Agentic AI应用
通过发票处理、客户邮件回复、复杂客服、视觉化计算机使用等案例,展示Agentic AI在不同场景下的应用。
1.5 Agentic AI应用
- agentic-ai一种让 AI Agent 根据明确或动态的任务目标,自主调用工具、访问数据库、执行步骤并完成任务的工作模式。
- 不同于传统“输入-输出”的简单问答,它强调多步骤规划、工具使用、状态更新与决策能力。
案例一:发票处理工作流(Invoice Processing)
自动化处理企业收到的发票,提取关键信息并记录到数据库,以确保及时付款。
任务目标:从 PDF 发票中提取关键信息(开票方、金额、到期日),并录入数据库。
所需字段:
- 开票方(Biller)
- 开票地址(Biller address)
- 应付金额(Amount due)
- 到期日(Due date) 工作流步骤:
- PDF 转文本 → 使用 API 将 PDF 转为结构化文本(如 Markdown)。
- LLM 解析文本 → 判断是否为发票,提取所需字段。
- 调用工具更新数据库 → 通过 update database 工具将数据存入系统。
- 生成记录成功提示 → “Record created!”
传统人工流程
财务部门人员手动查看发票,识别上述关键字段,然后将信息录入数据库。
案例二:回复客户邮件(Responding to Customer Email)
示例邮件:“我订购了蓝色 KitchenPro 搅拌机(订单 #8847),但收到的是红色烤面包机。”
工作流步骤:
- 提取关键信息 → LLM 识别订单号、产品、问题。
- 查询订单数据库 → 使用 orders database query 工具获取订单详情。
- 起草回复草稿 → LLM 根据信息撰写回复。
- 请求人工审核 → 使用 request review 工具将草稿提交给人类审批。
- 发送邮件 → 审核通过后自动发送。
价值:提升客服效率,确保回复准确性。
案例三:更复杂的客户服务agent(More Challenging: Customer Service Agent)
构建一个能处理各种未知问题的通用客户服务代理,而非仅限于特定订单查询。
场景一:库存查询:“你们有黑色或蓝色牛仔裤吗?”
agent需动态决定:
- 查询黑色牛仔裤库存
- 查询蓝色牛仔裤库存
- 综合回复客户 难点: 需要规划API调用的顺序来回答一个开放式问题。
场景二:退货处理:“我想退回我买的沙滩毛巾。”
agent需判断:
- 验证客户购买记录
- 检查退货政策(如是否在 30 天内、是否未使用)
- 若允许退货 → 生成退货标签 + 设置数据库状态为“待退货” 难点: 步骤不是预先固定的,代理必须根据条件判断并决定后续行动。
案例四:视觉计算机使用(Difficult: Visual Computer Use)
让AI代理像人类一样使用网页浏览器,完成复杂的交互式任务。
示例任务:让 AI agent检查从旧金山到华盛顿 DCA 机场的两个特定联合航空航班是否有空座。
agent行为:
- 自动打开浏览器,访问 United.com。
- 填写表单、点击按钮、导航页面。
- 遇到“页面未找到”错误 → 自主切换到 Google Flights。
- 在 Google Flights 上搜索航班 → 选择合适选项 → 返回 United 网站确认。
- 最终确认座位可用。
核心能力:
- 视觉理解(读取网页内容)
- 推理决策(遇到错误时调整策略)
- 工具调用(模拟鼠标点击、键盘输入)
- 状态跟踪(记住当前进度)
现实挑战:
- 页面加载慢 → agent可能卡住
- UI 变化 → agent无法识别元素
- 多模态输入 → 更难处理
前景:虽不稳定,但在关键任务应用(如金融、医疗)中潜力巨大。
代理型AI适合哪些任务? (What tasks is agentic AI suited to?)
这是一个从“容易”到“困难”的连续光谱:
较易实现的任务 (Easier)
- 清晰、逐步的流程 (Clear, step-by-step process): 有明确的执行步骤。
- 标准程序 (Standard procedures to follow): 企业已有成熟的操作手册。
- 纯文本资产 (Text assets only): 输入和输出均为文本,因为LLM擅长处理文本。
较难实现的任务 (Harder)
- 步骤未知 (Steps not known ahead of time): 任务需求在执行前不确定,需要代理动态规划。
- 边执行边解决 (Plan/solve as you go): 代理需要在过程中进行推理和决策。
- 多模态输入 (Multimodal: sound, vision): 需要处理图像、声音等非文本
agentic-ai 是将人类工作流程自动化的新范式 —— 它不是取代人,而是把人从重复性、规则性强的任务中解放出来,专注于更高阶的决策与创造。