新闻 发表于 2025-2-27 00:19

AI Agent的基本模块

作者:微信文章


ABOUT

AI Agent的设计高度依赖场景,一个AI Agent(智能体)的核心要素可以抽象为感知、决策、行动的闭环,以下是其最基本的骨架。


<div data-page-id="fake_7324591445054963716_1739575595254_ownerType5" data-lark-html-role="root" data-docx-has-block-data="false"><div class="ace-line ace-line old-record-id-TSjTdqAqPo1PXOxvrFqcM5SjnLg">

感知模块(Perception)

感知模块,从环境或用户输入中获取信息,并信息过滤、结构化(例如将语音转为文本,图像转为特征向量)。

主要包含两类,一类是感知物理世界的各类传感器,包括摄像头、麦克风、温度传感器等。

另一类,是实现数字环境交互的数据接口,例如API调用、文本输入、数据库查询等。

决策模块(Reasoning & Planning)

决策,是基于感知信息,生成目标导向的决策。

其包括知识库、规则、预训练模型如LLM的隐含知识。

有时,也包括一些逻辑推理(如if-else规则、符号推理)、概率推理(如贝叶斯网络、强化学习策略)及生成式模型(如LLM生成文本)。

决策目标,可以是显性目标,也可以有效用函数来定义的隐含目标,例如“最大化用户满意度”驱动决策方向。

行动模块(Action)

负责将决策转化为实际行动,通过调用外部工具的能力,行动能力。

实现方式分为物理动作(机器人手臂移动、语音播报)和数字操作(发送API请求、生成文本/图像)。

在动作方面,可验证、可执行是有挑战的。例如确保客户服务响应邮件的触发。

学习模块(Learning)

通过经验优化决策能力,包括监督学习(用标注数据修正模型)、强化学习(试错中调整策略)、在线学习(实时适配用户偏好迁移)。

该模块虽非必需,却是智能体长期进化的关键。

此外还有一些可以扩展的能力。譬如记忆管理(记录对话上下文)、多Agent协作(协同任务或竞争)、伦理约束(过滤有害内容、安全边界控制)。

设计起点,

简单务实,避免幻觉

AI Agent 智能体的核心特征是自主性与目标驱动(Autonomy & Purpose),但是过度“幻觉”和美好想象,会让系统误入歧途。

在AI Agent设计中,优先构建“感知-决策-行动”最小闭环,逐步增强;决策过程需可追溯;容忍部分模块失效,逐步保障系统鲁棒性。
页: [1]
查看完整版本: AI Agent的基本模块