高中生AI项目招募 | 基于AI Agent打造深度研究 (Deep Research) 助手
作者:微信文章AI Agent是构建在LLM之上的可直接交付结果的AI应用。相较于仅能提供信息与建议的RAG问答系统(高中生AI项目招募 | 基于检索辅助生成(RAG)技术打造智能AI助教),Agent完成了从动嘴到动手的转变,让人们只需要通过与AI交谈,就可以直接产出像PPT、设计图稿、旅行规划等原先需要投入时间精力的工作成果,极大地提升了人们的生产力。
前阵子大火的Manus是Agent的一个典型案例。Manus是首个出圈的通用Agent产品,它会理解用户的输入指令,按步骤分解成子任务列表,并逐项执行。我们可以通过它自带的虚拟机来实时"监工"Manus的工作进度。待我们将指令输入Manus后,就可以去喝杯咖啡,等待其给我们交付最终的结果了 :)。
Manus可以帮我们撰写调研报告:
https://mmbiz.qpic.cn/sz_mmbiz_gif/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RaKOY2ICIlZ1cx9J9FKtfRgXIOQ5LTRPst6REUFBEPx5nSpOtd7bmYA/640?wx_fmt=gif&from=appmsg
Manus运行时截图,图源自网络
可以替我们整理美国电动车市场行业数据形成最终的PPT:
https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RzBMGHtjqcTmGVjLPo0HUMy5ibVfUUsuVzYQCYH0tRFTTtOVwDIRibqnw/640?wx_fmt=png&from=appmsg
Manus 运行结果PPT,图源自网络
甚至还可以按用户要求编写消消乐游戏:
Manus 运行结果PPT,图源自网络
Manus编写完成的消消乐游戏网页,图源自网络
虽然Manus在专业性极强的任务(如法律文书、专业医疗咨询)上的表现差强人意,但其作为一个通用任务的Agent,已能帮用户解决日常生活中的问题。
既然AI Agent在未来是一个非常有前景的发展方向,那么它底层的技术框架又是怎样的呢?当前,AI Agent被普遍认为是拥有规划能力和长短期记忆,并拥有工具调用能力的LLM应用,即Agent = LLM + Planning + Memory + Tool Use。
https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9R4BMmA5TqN0ebvyUIyMVLiaP7JR3PPiaHxo2GxH3SsibyHe1xSCwcgEaEg/640?wx_fmt=png&from=appmsg
AI Agent架构图,图源自网络
同学们对以上名词感到陌生?没关系,让我们来一项项拆解上述的组成部分。
LLM
首先LLM即大语言模型 (Large Language Model),如ChatGPT、Deepseek-R1、Claude以及Qwen系列等,能够根据用户的输入的提示词 (Prompt) 文本给出相应回答文本 (Response),是任何LLM based AI应用的核心。
Planning
Planning为规划能力,即LLM拥有接受一个任务输入,将其分解成执行任务的步骤以及步骤间执行先后顺序的能力。比如,用户的指令想要调研今年资本市场的黄金走势分析并输出调研文档,LLM会将其分解成黄金价格查询、金融资讯查询、关键国际事件抽取、事件与金价关联以及最终调研报告总结输出等任务步骤。
Planning中最基本的方法是思维链(CoT,Chain of Thought),提出该方法的研究人员发现通过提示词 (Prompt) 引导LLM一步一步的输出 (step-by-step) 思考过程,再进行答案的回答能够显著提高正确率。这一点和人类的思考模式类似:直接回答问题较为困难,将问题一步一步拆解思考后再进行回答相较容易。
在Planning阶段,Agent还会利用反思 (Reflection) 能力,对已经输出的内容进行反思,并予以修正,在DeepSeek-R1中我们看到的思维链中的“哦,也许这个地方有一些问题”这一类的输出便是模型反思能力的体现。反思的存在提高了模型Planning的输出的容错性。
Planning的典型的框架是ReAct,即Reason and Act。如下图左侧,Agent会根据问题先思考然后生成Action即搜索Apple Remote,然后执行这个搜索获得观察结果obs 1 (obs代表observation),重复以上动作直到得到最终结果。
https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RPJ397wR5aLRNkPNg3IicPMhOiaZtE3UEEkXeNibZzcOHSRBmsdS5RoL7g/640?wx_fmt=png&from=appmsg
ReAct框架下的LLM工作流程,图源自网络
看到这里,同学们可能会有个疑惑,这些神奇的思维链 (CoT) 以及反思 (Reflection) 能力是怎么获得的呢?
其实这是LLM本身就拥有的能力,LLM在训练阶段就被训练数据与训练目标赋予了这些能力,只不过在Agent的应用过程中,我们通过系统化的提示词工程 (Prompt Engineering) 将这些能力激发了出来。由此我们也可以看到,一个Agent应用规划能力的强弱,与底层使用的基座LLM的性能息息相关。
Memory
Memory即记忆能力,就跟人类完成任务需要知道自己的目标是什么,已经完成了多少工作等信息,Agent也需要记忆能力来辅助其完成工作。
Agent的记忆分为短时记忆 (Short-Term Memory) 以及长时记忆 (Long-Term Memory)。短时记忆指输入Prompt时的上下文文本 (In-Context Text),比如上文提到的Apple Remote的检索结果。由于这个结果在使用完成后就被丢弃,故称作短时记忆。而长时记忆指需要被持久化存储,在需要时能够被快速检索得到的内容,比如用户在历史对话中被记录的偏好(旅行规划时饮食住宿偏好等)。在实现时,长时记忆需要一个额外的向量数据库(Vector Database),通过向量相似度最近邻检索获取。关于向量数据库与最近邻检索,我们在 (高中生AI项目招募 | 基于检索辅助生成(RAG)技术打造智能AI助教) 文章已有介绍。
Tool Use
Tool Use 即工具调用能力。类比人类使用工具,LLM在遇到自身无法解决的问题时,也会向外求助工具来帮忙解决。在RAG系统中,LLM进行检索这个操作,就是一次工具调用行为。在Agent中,Tool的定义更加宽泛,比如查询天气、通过UI接口操作网页、通过API调用生成PPT等等,通过这些多样的工具,Agent能实现与现实世界的交互,将Planning中规划的任务真正执行出来。
在Agent应用中,工具调用是通过LLM内置的function call(函数调用)功能实现的,即对于每一个工具,我们需要预先提供工具的名称 (name,如weather_search),工具功能的描述 (description,如查询某日某地的天气),以及工具的参数 (arguments,如查询日期date,以及查询地点location)。
{
"name":"weather_search",
"description":"用于天气查询",
"arguments":{
"location":"查询地点",
"date":"查询日期"
}
}
将上述工具的描述作为Prompt的一部分输入到LLM中,LLM就能利用自己的Planning能力,在合适的时机输出需要调用的工具名字,以及推断调用该工具所需要的参数。与思维链 (CoT) 以及反思 (Reflection) 能力一样,function call的能力也是在模型训练时获得的,基座LLM的能力同样对Tool use有至关重要的影响。
招募
打造深度研究 (Deep Research) 助手
在学习和课业生涯中,我们有大量的调研需求,而浩如烟海的文献资料常常需要我们花费巨量的精力进行阅读、筛选与总结。基于上述的Agent能力,我们可以设计并实现一个深度研究(Deep Research)助手,给定一个课题,Agent能够自动进行任务拆解、检索分析以及完成最终的报告撰写,从而帮助我们节省调研时间,提高效率。
1
招募对象
0基础对AI技术感兴趣的高中生(9-12年级均可)
2
招募人数
3个人
3
项目时长
3个月
4
授课内容
Python基础编程、机器学习基础、实战 AI Agent深度研究项目
感兴趣就来联系小助手吧👇🏻
相关文章:高中生AI项目招募 | 基于检索辅助生成(RAG)技术打造智能AI助教高中生AI项目招募|AI与ART跨界而来AI项目招生 | 动嘴就能PS:探寻OpenAI GPT4o生图的奥秘
页:
[1]