目标驱动
Agent 不是只回答一句话,而是围绕一个目标持续推进,直到产出可交付结果或遇到阻塞。
普通大模型像一个会回答问题的人,Agent 更像一个能接任务、拆步骤、调用工具、观察结果并继续推进的助理。它的核心不是“会聊天”,而是围绕目标完成一串动作。
这里的“自主”不是无限制地乱做事,而是在系统设定的权限、工具和流程内,自己判断下一步该做什么。
Agent 不是只回答一句话,而是围绕一个目标持续推进,直到产出可交付结果或遇到阻塞。
把复杂目标拆成小步骤,例如先查资料、再分析、再生成、最后自检。
需要实时数据或确定性动作时,调用工具、知识库、文件系统、API 或业务流程。
看工具返回、检查中间产物、识别失败原因,再决定继续、修正或追问。
Agent 是基于大模型的任务执行系统。它不仅能理解和生成文本,还能围绕目标进行规划、调用工具、观察结果、调整下一步,并在安全边界内完成多步骤任务。
简单问答用聊天模型就够了。复杂任务需要多轮信息收集、多步操作和中间检查,这时 Agent 的价值会明显。
比如解释一个概念、润色一句话、总结一段文本。任务边界清楚,不需要查外部系统,也不需要持续执行。
比如排查线上问题、生成 PRD、整理竞品分析、写测试计划。需要拆步骤、查资料、调用工具和做质量检查。
Agent 通常由 LLM、Prompt、Tool、RAG、MCP、Skill、权限和运行时共同组成。它是一个系统,不是单个能力。
负责理解、推理、生成和选择下一步。它是 Agent 的核心能力之一,但不是完整 Agent。
负责查资料、调接口、跑命令、写文件、创建工单等具体动作。
告诉 Agent 遇到某类任务时该按什么流程做、用什么资料、怎么验收。
把目标、模型、工具、资料、流程和安全策略组织起来,完成多步骤任务。
| 维度 | 普通聊天 | Agent |
|---|---|---|
| 目标 | 回答当前问题 | 完成一个多步骤任务 |
| 过程 | 一次或少量对话 | 规划、执行、观察、调整 |
| 外部能力 | 通常只基于上下文回答 | 可调用工具、知识库、API、文件和工作流 |
| 质量控制 | 主要看最终回答 | 还要看步骤、工具调用、权限、日志和交付物 |
这条闭环是理解 Agent 的关键。它不是一次生成到底,而是边做边看结果,再决定下一步。
goal = "生成商品导入失败明细 PRD"
state = collect_context(goal)
while not done(state):
plan = make_next_step(goal, state)
action = choose_action(plan)
result = execute(action)
state = observe_and_update(state, result)
if needs_user_input(state):
ask_clarifying_question()
return final_deliverable(state)
目标越模糊,Agent 越容易跑偏。好的任务输入要包含目标、范围、约束、输出格式和成功标准。
不知道优化哪个系统、面向谁、解决什么问题、输出什么结果,也不知道是否允许查资料、改代码或调用工具。
明确要查现有文档和接口,输出 PRD,重点覆盖失败明细展示、字段、权限、异常处理和验收标准。
| 字段 | 说明 |
|---|---|
| 目标 | 这次最终要完成什么。 |
| 范围 | 做哪些,不做哪些。 |
| 资料 | 可以查哪些文档、知识库、系统或接口。 |
| 约束 | 权限、时间、格式、业务规则、不能触碰的动作。 |
| 验收 | 怎样判断结果完成且质量达标。 |
好的计划要能指导行动。每一步都应该对应一个可观察的动作或产物。
例如“生成 PRD”可以拆成澄清需求、查现状、梳流程、列字段、写验收、复核风险。
不要先写结论再查资料。应先收集事实,再生成结构化产物。
查资料要有来源,生成草稿要能检查章节,调用工具要看返回结果。
Plan:
1. Clarify target users, business scope, and output format.
2. Retrieve current product import PRD and API schema.
3. Compare existing behavior with the new failure-detail requirement.
4. Draft PRD sections: background, goals, user flow, data fields, edge cases.
5. Validate against checklist: permissions, error states, analytics, acceptance criteria.
6. Return final PRD with assumptions and open questions.
工具让 Agent 从“会回答”变成“能查、能算、能验证、能触发流程”。但工具执行必须受权限和策略控制。
搜索知识库、读取文档、查代码、查历史需求,用于补充事实依据。
查订单、查库存、查会员、查工单,获取实时业务状态。
创建工单、发送通知、生成文件、跑测试。高风险动作要人工确认。
运行测试、检查 JSON、验证链接、扫描格式,避免只靠模型自我感觉。
Agent 可以决定“我需要调用哪个工具”,但真正执行前,系统要检查参数、权限、风险级别和用户确认。尤其是写操作,不能让模型自由执行。
执行后要看结果。工具失败、资料冲突、参数缺失、答案不完整,都应该进入下一轮调整,而不是假装完成。
上下文负责让 Agent 记住目标、计划、工具结果和中间产物。记忆则用于跨任务复用偏好、历史事实或长期知识。
目标、范围、用户输入、当前计划、工具返回、中间产物。
哪些步骤已完成、哪些工具调用失败、哪些问题待确认。
用户偏好、团队规范、常用模板、系统背景。要可更新、可删除、可审查。
无关资料、过期信息、错误历史会让 Agent 做出错误决策。
不是所有对话都要长期记住。只有稳定、可复用、经过用户或系统确认的信息才适合进长期记忆。敏感信息要谨慎,最好有权限、过期时间和删除机制。
普通回答错了,最多是信息质量问题;Agent 如果执行错了,可能真的改数据、发通知、删文件或影响业务流程。
before_agent_action(action, user):
assert action.tool in allowed_tools(user.role)
assert validate_arguments(action.arguments)
assert check_data_scope(user, action.arguments)
if action.risk_level == "high":
return require_user_confirmation(action)
return execute_with_audit_log(action, user)
很多企业场景不需要完全开放式 Agent。稳定流程、有限工具、明确检查点,往往比“全自动自主探索”更可靠。
步骤基本固定,适合 PRD 生成、报告整理、质检清单。可控性高,适合入门落地。
先生成计划,再按步骤执行。适合任务复杂但边界清楚的场景。
围绕“想一步、做一步、看结果”推进,适合需要不断观察反馈的任务。
多个 Agent 分工协作,例如产品、研发、测试、评审。但复杂度和治理成本更高。
先做固定流程型 Agent,再逐步加入工具、观察、重试和人工确认。不要一开始就做全自动多 Agent 系统,否则调试和安全治理都会很困难。
只看最终回答不够。Agent 的价值来自过程,风险也来自过程,所以要评测每个关键环节。
是否正确识别用户目标、范围、约束和输出标准。
步骤是否合理,是否遗漏关键资料、工具和检查点。
工具是否选对,参数是否正确,权限和风险是否受控。
最终产物是否完整、准确、可用,并且能解释依据和假设。
这个案例可以把 Agent、RAG、Tool Calling、MCP、Skill 串起来,适合面试时讲企业落地。
Goal:
Generate PRD for product import failure details.
Plan:
1. Search existing import workflow docs.
2. Read API schema for import task result.
3. Extract current error-code rules.
4. Draft PRD using enterprise template.
5. Validate fields, edge cases, permissions, analytics.
Observation:
Current API returns task-level failure count,
but not row-level error detail.
Adjustment:
Add backend requirement: expose row index, field name,
error code, error message, and suggested fix.
Agent 的价值不是直接写一篇漂亮 PRD,而是能围绕目标把查资料、对齐现状、发现缺口、生成结构化产物和自检串成闭环。它应该明确哪些是事实、哪些是假设、哪些需要业务或研发确认。
面试官问 Agent,通常不是只想听“AI 助理”。要讲出目标、规划、工具、观察、调整和安全边界。
A:Agent 是基于大模型的任务执行系统。它能围绕用户目标进行规划,调用工具或知识库执行步骤,观察结果,再根据反馈调整下一步,最终交付可用结果。
A:普通聊天机器人主要回答当前问题,Agent 更强调完成任务。它会拆解目标、维护状态、调用工具、处理失败、做质量检查,适合多步骤任务。
A:通常包括大模型、系统提示词、任务规划器、工具调用能力、上下文和记忆、观察反馈机制、安全策略、日志和评测体系。不同项目可以简化或扩展。
A:当任务需要多步骤执行、外部工具、动态决策和中间反馈时适合用 Agent。比如故障排查、PRD 生成、客服工单处理、代码分析。如果只是简单问答,用普通 LLM 或 RAG 就够了。
A:主要风险是工具误用、权限越界、计划跑偏、错误结果被继续放大,以及缺少审计日志。解决方式是限制工具权限、设置人工确认、做参数校验、记录执行链路,并对过程和结果做评测。
学完这一课,不要求马上写复杂系统,但要能把“目标、计划、工具、观察、交付”讲清楚。
用户问“订单为什么没发货”,列出目标、计划、需要调用的工具、观察点和最终回答边界。
从“接口 500 增多”出发,拆出查监控、查日志、查发布记录、提出假设、验证根因的流程。
把需求描述转成 PRD,列出需要的知识库、接口文档、Skill、校验清单和人工确认点。