Agentic AI 教程

1.5 Agentic AI应用

通过发票处理、客户邮件回复、复杂客服、视觉化计算机使用等案例,展示Agentic AI在不同场景下的应用。

1.5 Agentic AI应用

  • agentic-ai一种让 AI Agent 根据明确或动态的任务目标,自主调用工具、访问数据库、执行步骤并完成任务的工作模式。
  • 不同于传统“输入-输出”的简单问答,它强调多步骤规划、工具使用、状态更新与决策能力。

案例一:发票处理工作流(Invoice Processing)

自动化处理企业收到的发票,提取关键信息并记录到数据库,以确保及时付款。

任务目标:从 PDF 发票中提取关键信息(开票方、金额、到期日),并录入数据库。

所需字段:

  • 开票方(Biller)
  • 开票地址(Biller address)
  • 应付金额(Amount due)
  • 到期日(Due date) 工作流步骤:
  1. PDF 转文本 → 使用 API 将 PDF 转为结构化文本(如 Markdown)。
  2. LLM 解析文本 → 判断是否为发票,提取所需字段。
  3. 调用工具更新数据库 → 通过 update database 工具将数据存入系统。
  4. 生成记录成功提示 → “Record created!”

传统人工流程

财务部门人员手动查看发票,识别上述关键字段,然后将信息录入数据库。

案例二:回复客户邮件(Responding to Customer Email)

示例邮件:“我订购了蓝色 KitchenPro 搅拌机(订单 #8847),但收到的是红色烤面包机。”

工作流步骤:

  1. 提取关键信息 → LLM 识别订单号、产品、问题。
  2. 查询订单数据库 → 使用 orders database query 工具获取订单详情。
  3. 起草回复草稿 → LLM 根据信息撰写回复。
  4. 请求人工审核 → 使用 request review 工具将草稿提交给人类审批。
  5. 发送邮件 → 审核通过后自动发送。

价值:提升客服效率,确保回复准确性。

案例三:更复杂的客户服务agent(More Challenging: Customer Service Agent)

构建一个能处理各种未知问题的通用客户服务代理,而非仅限于特定订单查询。

场景一:库存查询:“你们有黑色或蓝色牛仔裤吗?”

agent需动态决定:

  1. 查询黑色牛仔裤库存
  2. 查询蓝色牛仔裤库存
  3. 综合回复客户 难点: 需要规划API调用的顺序来回答一个开放式问题。

场景二:退货处理:“我想退回我买的沙滩毛巾。”

agent需判断:

  1. 验证客户购买记录
  2. 检查退货政策(如是否在 30 天内、是否未使用)
  3. 若允许退货 → 生成退货标签 + 设置数据库状态为“待退货” 难点: 步骤不是预先固定的,代理必须根据条件判断并决定后续行动。

案例四:视觉计算机使用(Difficult: Visual Computer Use)

让AI代理像人类一样使用网页浏览器,完成复杂的交互式任务。

示例任务:让 AI agent检查从旧金山到华盛顿 DCA 机场的两个特定联合航空航班是否有空座。

agent行为:

  1. 自动打开浏览器,访问 United.com。
  2. 填写表单、点击按钮、导航页面。
  3. 遇到“页面未找到”错误 → 自主切换到 Google Flights。
  4. 在 Google Flights 上搜索航班 → 选择合适选项 → 返回 United 网站确认。
  5. 最终确认座位可用。

核心能力:

  • 视觉理解(读取网页内容)
  • 推理决策(遇到错误时调整策略)
  • 工具调用(模拟鼠标点击、键盘输入)
  • 状态跟踪(记住当前进度)

现实挑战:

  • 页面加载慢 → agent可能卡住
  • UI 变化 → agent无法识别元素
  • 多模态输入 → 更难处理

前景:虽不稳定,但在关键任务应用(如金融、医疗)中潜力巨大。

代理型AI适合哪些任务? (What tasks is agentic AI suited to?)

这是一个从“容易”到“困难”的连续光谱:

较易实现的任务 (Easier)

  • 清晰、逐步的流程 (Clear, step-by-step process): 有明确的执行步骤。
  • 标准程序 (Standard procedures to follow): 企业已有成熟的操作手册。
  • 纯文本资产 (Text assets only): 输入和输出均为文本,因为LLM擅长处理文本。

较难实现的任务 (Harder)

  • 步骤未知 (Steps not known ahead of time): 任务需求在执行前不确定,需要代理动态规划。
  • 边执行边解决 (Plan/solve as you go): 代理需要在过程中进行推理和决策。
  • 多模态输入 (Multimodal: sound, vision): 需要处理图像、声音等非文本

agentic-ai 是将人类工作流程自动化的新范式 —— 它不是取代人,而是把人从重复性、规则性强的任务中解放出来,专注于更高阶的决策与创造。

On this page