Hello-Agent习题思考 #350

kevin911 · 2026-02-19T12:52:21Z

kevin911
Feb 19, 2026

Chatter4

Q1：本章介绍了三种经典的智能体范式:ReAct、Plan-and-Solve 和 Reflection。请分析:
这三种范式在"思考"与"行动"的组织方式上有什么本质区别？

ReAct: Thought->Action-> Observation 能够对问题进行及时的响应和反馈，适合外部环境稳定性差，需要及时调整的场景
Plan-and-Solve: Plan->Execute list->Solve 先计划在执行，全局最优，适合比较稳定和规范性的场景
Reflection: Action-> Evaluation->Reflection->Re-Action 有两个角色，一个是执行者，一个评估员，执行完进行评估修正，有一定的进化意识

如果要设计一个"智能家居控制助手"（需要控制灯光、空调、窗帘等多个设备，并根据用户习惯自动调节），你会选择哪种范式作为基础架构？为什么？

会考虑ReAct作为基础架构。因为外部设备稳定性较差，灯坏了等情况，需要即时反馈

是否可以将这三种范式进行组合使用？若可以，请尝试设计一个混合范式的智能体架构，并说明其适用场景。

比如"智能家居控制助手"就可考虑Plan+ReAct混合模式，Plan依据用户习惯和当前的环境先进行Plan，然后每一步通过ReAct模式及时反馈。
对于精度要求、复杂度较高的场景，还可考虑Plan+ReAct+Reflection混合模型

Q2: 在4.2节的 ReAct 实现中，我们使用了正则表达式来解析大语言模型的输出（如 Thought 和 Action）。请思考:

当前的解析方法存在哪些潜在的脆弱性？在什么情况下可能会失败？
除了正则表达式，还有哪些更鲁棒的输出解析方案？
尝试修改本章的代码，使用一种更可靠的输出格式，并对比两种方案的优缺点

模型输出是依据概率来的，所以当问题的复杂度较高，转义符等情况下，仅依据提示词输出的格式在解析过程中可能失败；
可以考虑更加结构化的输出，例如json格式
具体解决方案：1. 提示词给出json样例 2. 添加reponse_format 3.使用jsonrepair等库对输出进行修复三者可同时使用

Q3: 工具调用是现代智能体的核心能力之一。基于4.2.2节的 ToolExecutor 设计，请完成以下扩展实践:
为 ReAct 智能体添加一个"计算器"工具，使其能够处理复杂的数学计算问题（如"计算 (123 + 456) × 789/ 12 = ? 的结果"）
设计并实现一个"工具选择失败"的处理机制:当智能体多次调用错误的工具或提供错误的参数时，系统应该如何引导它纠正？
思考:如果可调用工具的数量增加到$50$个甚至$100$个，当前的工具描述方式是否还能有效工作？在可调用工具数量随业务需求显著增加时，从工程角度如何优化工具的组织和检索机制？

当可调用的工具数据很多时，由于模型的上下文窗口有限制，所以不可能将全部的工具与描述输入到大模型，考虑有以下几种方法：1.考虑分批将工具输入到大模型，然后由大模型选择一个合适的 2.考虑将工具进行分类等，让大模型先选择类型，在依据类型选择工具 3. 考虑将工具写入到RAG向量库中，先在RAG中召回相似度高的topK，然后在将topK工具输入到大模型

Q4: Plan-and-Solve 范式将任务分解为"规划"和"执行"两个阶段。请深入分析:
在4.3节的实现中，规划阶段生成的计划是"静态"的（一次性生成，不可修改）。如果在执行过程中发现某个步骤无法完成或结果不符合预期，应该如何设计一个"动态重规划"机制？

新增状态管理，记录所有的步骤，以及执行过的步骤以及状态及失败原因等，当某个步骤失败时，将之前的步骤以及执行记录，当前失败的步骤组成提示词重新给到LLM，让其优化当前步骤，同时记录失败次数，避免死循环

对比 Plan-and-Solve 与 ReAct:在处理"预订一次从北京到上海的商务旅行（包括机票、酒店、租车）"这样的任务时，哪种范式更合适？为什么？

Plan与ReAct结合的模式更加适合；此场景需要整体的规划，实现全局最优解，同时对于机票，酒店，租车等场景又是动态的，所以需及时反馈结果并就行修正

尝试设计一个"分层规划"系统:先生成高层次的抽象计划，然后针对每个高层步骤再生成详细的子计划。这种设计有什么优势？

可以考虑Plan + ReAct模式，先通过Plan进行整体规划，实现全局最优解，同时对子任务进行拆解，在执行具体的执行步骤；对于复杂，长时间的任务有较大优势，不会出现LLM遗忘之前的步骤出现混乱

Q5: Reflection 机制通过"执行-反思-优化"循环来提升输出质量。请思考:
在4.4节的代码生成案例中，不同阶段使用的是同一个模型。如果使用两个不同的模型（例如，用一个更强大的模型来做反思，用一个更快的模型来做执行），会带来什么影响？

优点：1.突破相同模型的知识盲区，查缺补漏 2. 节省成本，快速模型用于执行，强大模型进行完善优化
缺点：模型代差，有可能强大模型给出的优化建议快速模型实现不了

Reflection 机制的终止条件是"反馈中包含无需改进"或"达到最大迭代次数"。这种设计是否合理？能否设计一个更智能的终止条件？

通过返回“无需改进”或“达到最大迭代次数”两者的评估都较为单一和片面，可考虑做一个评估模块；
评估模块可以依据业务来设计相应的指标，例如：语义的收敛性、外部验证逻辑
语义收敛性：通过比较当前响应与上一次响应的语义相似度，设定一个阈值，达到后则达标
外部验证逻辑：依据业务设定测试用例，两次的测试用例的通过率来判定达标

Q6: 某电商初创公司现在希望使用"客服智能体"来代替真人客服实现降本增效，它需要具备以下功能:

a. 理解用户的退款申请理由

b. 查询用户的订单信息和物流状态

c. 根据公司政策智能地判断是否应该批准退款

d. 生成一封得体的回复邮件并发送至用户邮箱

e. 如果判断决策存在一定争议（自我置信度低于阈值），能够进行自我反思并给出更审慎的建议

此时作为该产品的负责人:

你会选择本章的哪种范式（或哪些范式的组合）作为系统的核心架构？

Plan + RecAct + Reflection 该智能体主要是处理退款事项，需规划好退款流程，以及实时查询订单/物流状态信息，后续出现争议还得进行反思

这个系统需要哪些工具？请列出至少3个工具及其功能描述。

查询订单信息、查询物流信息、邮件发送、判断是否退款

如何设计提示词来确保智能体的决策既符合公司利益，又能保持对用户的友好态度？
这个产品上线后可能面临哪些风险和挑战？如何通过技术手段来降低这些风险？

恶意客户钻漏洞等情况，需设计一个封控系统：考虑用户的退款次数、以及出现争议等情况进行人工审批后在进行退款等机制

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hello-Agent习题思考 #350

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Hello-Agent习题思考 #350

Uh oh!

kevin911 Feb 19, 2026

Chatter4

Replies: 0 comments

kevin911
Feb 19, 2026