第一章习题思考 #515
Unanswered
hlq-git
asked this question in
💬 Exercises & Q&A
第一章习题思考
#515
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
Case A 不属于智能体。它有很强算力,但本身没有传感器、执行器、自主目标和“感知-决策-行动”闭环,更像基础计算资源。
Case B 属于智能体。按内部架构看,它至少是“基于模型”的,因为要维护道路、车道、障碍物等状态;按时间维度看,在这个障碍物场景里它主要是“反应式”智能体,因为必须毫秒级决策;从完整系统看,它又带有“混合式”特征,因为自动驾驶整体既需要实时反应,也需要长程规划。
Case C 属于智能体。它是典型“规划式”智能体,因为要预演未来多步;也是“基于目标”的智能体,目标是赢棋;也可视为“基于效用”的智能体,因为它在比较不同走法的期望价值;同时还是“学习型”智能体,因为 AlphaGo 的核心能力来自学习与自我对弈。
Case D 属于智能体,但前提是它不只是聊天,而是真的能查订单、分析原因、给方案并动态安抚。按本章框架,它是 LLM 驱动、以目标为导向的智能体;按时间维度看更接近“混合式”,因为它既要根据用户即时反馈调整,又要围绕解决投诉这个目标持续推进。
Performance:训练安全、目标达成度、动作准确率、计划执行率、恢复效果、用户满意度、饮食建议有效性。
Environment:用户身体状态、健身场景、器械、可穿戴设备、历史训练记录、饮食与睡眠情况、外部环境。
Actuators:语音指导、动作纠正提醒、训练计划调整、强度升降、休息提醒、饮食建议、风险预警。
Sensors:心率、配速、功率、运动强度、姿态数据、摄像头或 IMU、用户反馈、历史健康数据。
这个环境是部分可观察的,因为设备无法完整知道用户真实疲劳、疼痛和长期恢复状态。
它是随机性的,因为同样训练计划在不同睡眠、情绪、天气下结果会不同。
它是动态的,因为用户心率、动作和疲劳状态在运动过程中持续变化。
它是序贯的,因为当前训练安排会影响后续恢复和下一阶段计划。
它还带有多智能体/人机协作色彩,因为用户本身会主动配合、拒绝或偏离建议。
Workflow 的优点是规则清晰、成本低、吞吐高、可审计、稳定、易合规;缺点是僵硬,难处理灰度案例和复杂证据。
Agent 的优点是能理解上下文、整合多源信息、动态推理、处理复杂例外;缺点是结果不稳定,存在误判和幻觉风险,审计与责任界定更难。
Workflow 更适合规则明确、高频、风险高、要求强一致性的场景,比如标准 7 天无理由退款。
Agent 更适合非结构化、例外多、需要综合历史行为和商品状态判断的场景,比如争议退款、疑似欺诈、复杂客诉。
如果只能二选一,我会先选 Workflow 作为主方案,因为退款属于高风险业务;
方案 C “Workflow 打底,Agent 增强”:硬规则和审批边界仍由 Workflow 控制,Agent 负责读文本、抽取证据、做风险评分、生成建议,高风险单再交人工复核。
加记忆:在每轮 Thought 前增加“读取用户偏好”,在每轮 Observation 后增加“更新记忆”。这样它就能记住历史文化偏好、预算上限等。
加备选方案:新增 check_ticket() 与 get_backup_attraction() 工具;若观察到“门票售罄”,下一轮 Thought 自动改成“寻找同风格、同预算、同区域的替代景点”。
加反思:维护一个“连续拒绝计数器”;当用户连续拒绝 3 次时,不直接继续推荐,而是插入一次 Reflection,总结失败原因,修正偏好假设,再进入下一轮推荐。
从循环上看,可以把原来的 Thought -> Action -> Observation 扩成“记忆检索 -> Thought -> Action -> Observation -> 记忆更新/反思”。
场景我选“医疗诊断助手”。
系统 1 负责快速直觉任务:从症状、生命体征、影像里快速识别异常模式,做初筛和风险预警。
系统 2 负责慢速推理任务:做鉴别诊断、检查医学指南、推导检查顺序、核对药物禁忌、生成可解释结论。
协同方式是:系统 1 先高召回地提出候选风险和候选诊断,系统 2 再用规则、知识库和逻辑链条做验证与筛选;两者冲突时触发补充检查或医生复核。这样既快又稳,正符合本章对神经符号主义和“双系统”的描述。
幻觉会出现,是因为 LLM/亚符号系统擅长模式生成,但不天然等于事实校验;当上下文不足、工具结果不完整、训练数据含噪或推理链漂移时,就可能生成“看似合理但实际错误”的内容。本章在讲亚符号主义时也明确提到了这一点。
如果没有最大循环次数限制,智能体可能会陷入反复调用工具、重复同类推理、在错误观察上越走越远,甚至形成死循环,导致成本、延迟和错误累积失控。
评估智能体不能只看准确率。还应看任务完成率、工具调用正确率、步骤效率、鲁棒性、恢复能力、安全性、延迟、成本、可解释性和用户满意度。
准确率只适合评估“结果对不对”;但智能体是一个多步闭环系统,过程质量同样重要。
Beta Was this translation helpful? Give feedback.
All reactions