【高中生AI项目招募 | 基于AI Agent打造深度研究 (Deep Research) 助手】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-6-27 21:39

高中生AI项目招募 | 基于AI Agent打造深度研究 (Deep Research) 助手

作者：微信文章
AI Agent是构建在LLM之上的可直接交付结果的AI应用。相较于仅能提供信息与建议的RAG问答系统（高中生AI项目招募 | 基于检索辅助生成（RAG）技术打造智能AI助教），Agent完成了从动嘴到动手的转变，让人们只需要通过与AI交谈，就可以直接产出像PPT、设计图稿、旅行规划等原先需要投入时间精力的工作成果，极大地提升了人们的生产力。

前阵子大火的Manus是Agent的一个典型案例。Manus是首个出圈的通用Agent产品，它会理解用户的输入指令，按步骤分解成子任务列表，并逐项执行。我们可以通过它自带的虚拟机来实时"监工"Manus的工作进度。待我们将指令输入Manus后，就可以去喝杯咖啡，等待其给我们交付最终的结果了：）。

Manus可以帮我们撰写调研报告：

https://mmbiz.qpic.cn/sz_mmbiz_gif/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RaKOY2ICIlZ1cx9J9FKtfRgXIOQ5LTRPst6REUFBEPx5nSpOtd7bmYA/640?wx_fmt=gif&from=appmsg

Manus运行时截图，图源自网络

可以替我们整理美国电动车市场行业数据形成最终的PPT：

https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RzBMGHtjqcTmGVjLPo0HUMy5ibVfUUsuVzYQCYH0tRFTTtOVwDIRibqnw/640?wx_fmt=png&from=appmsg

Manus 运行结果PPT，图源自网络

甚至还可以按用户要求编写消消乐游戏：

Manus 运行结果PPT，图源自网络

Manus编写完成的消消乐游戏网页，图源自网络

虽然Manus在专业性极强的任务（如法律文书、专业医疗咨询）上的表现差强人意，但其作为一个通用任务的Agent，已能帮用户解决日常生活中的问题。

既然AI Agent在未来是一个非常有前景的发展方向，那么它底层的技术框架又是怎样的呢？当前，AI Agent被普遍认为是拥有规划能力和长短期记忆，并拥有工具调用能力的LLM应用，即Agent = LLM + Planning + Memory + Tool Use。

https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9R4BMmA5TqN0ebvyUIyMVLiaP7JR3PPiaHxo2GxH3SsibyHe1xSCwcgEaEg/640?wx_fmt=png&from=appmsg

AI Agent架构图，图源自网络

同学们对以上名词感到陌生？没关系，让我们来一项项拆解上述的组成部分。

LLM

首先LLM即大语言模型 (Large Language Model)，如ChatGPT、Deepseek-R1、Claude以及Qwen系列等，能够根据用户的输入的提示词 (Prompt) 文本给出相应回答文本 (Response)，是任何LLM based AI应用的核心。

Planning

Planning为规划能力，即LLM拥有接受一个任务输入，将其分解成执行任务的步骤以及步骤间执行先后顺序的能力。比如，用户的指令想要调研今年资本市场的黄金走势分析并输出调研文档，LLM会将其分解成黄金价格查询、金融资讯查询、关键国际事件抽取、事件与金价关联以及最终调研报告总结输出等任务步骤。

Planning中最基本的方法是思维链（CoT，Chain of Thought)，提出该方法的研究人员发现通过提示词 (Prompt) 引导LLM一步一步的输出 (step-by-step) 思考过程，再进行答案的回答能够显著提高正确率。这一点和人类的思考模式类似：直接回答问题较为困难，将问题一步一步拆解思考后再进行回答相较容易。

在Planning阶段，Agent还会利用反思 (Reflection) 能力，对已经输出的内容进行反思，并予以修正，在DeepSeek-R1中我们看到的思维链中的“哦，也许这个地方有一些问题”这一类的输出便是模型反思能力的体现。反思的存在提高了模型Planning的输出的容错性。

Planning的典型的框架是ReAct，即Reason and Act。如下图左侧，Agent会根据问题先思考然后生成Action即搜索Apple Remote，然后执行这个搜索获得观察结果obs 1 (obs代表observation），重复以上动作直到得到最终结果。

https://mmbiz.qpic.cn/sz_mmbiz_png/GwWUCq39zmK1DQnW0cyJ74JQ0hSoth9RPJ397wR5aLRNkPNg3IicPMhOiaZtE3UEEkXeNibZzcOHSRBmsdS5RoL7g/640?wx_fmt=png&from=appmsg

ReAct框架下的LLM工作流程，图源自网络

看到这里，同学们可能会有个疑惑，这些神奇的思维链 (CoT) 以及反思 (Reflection) 能力是怎么获得的呢？

其实这是LLM本身就拥有的能力，LLM在训练阶段就被训练数据与训练目标赋予了这些能力，只不过在Agent的应用过程中，我们通过系统化的提示词工程 (Prompt Engineering) 将这些能力激发了出来。由此我们也可以看到，一个Agent应用规划能力的强弱，与底层使用的基座LLM的性能息息相关。

Memory

Memory即记忆能力，就跟人类完成任务需要知道自己的目标是什么，已经完成了多少工作等信息，Agent也需要记忆能力来辅助其完成工作。

Agent的记忆分为短时记忆 (Short-Term Memory) 以及长时记忆 (Long-Term Memory)。短时记忆指输入Prompt时的上下文文本 (In-Context Text)，比如上文提到的Apple Remote的检索结果。由于这个结果在使用完成后就被丢弃，故称作短时记忆。而长时记忆指需要被持久化存储，在需要时能够被快速检索得到的内容，比如用户在历史对话中被记录的偏好（旅行规划时饮食住宿偏好等）。在实现时，长时记忆需要一个额外的向量数据库(Vector Database)，通过向量相似度最近邻检索获取。关于向量数据库与最近邻检索，我们在 (高中生AI项目招募 | 基于检索辅助生成（RAG）技术打造智能AI助教) 文章已有介绍。

Tool Use

Tool Use 即工具调用能力。类比人类使用工具，LLM在遇到自身无法解决的问题时，也会向外求助工具来帮忙解决。在RAG系统中，LLM进行检索这个操作，就是一次工具调用行为。在Agent中，Tool的定义更加宽泛，比如查询天气、通过UI接口操作网页、通过API调用生成PPT等等，通过这些多样的工具，Agent能实现与现实世界的交互，将Planning中规划的任务真正执行出来。

在Agent应用中，工具调用是通过LLM内置的function call（函数调用）功能实现的，即对于每一个工具，我们需要预先提供工具的名称 (name，如weather_search)，工具功能的描述 (description，如查询某日某地的天气)，以及工具的参数 (arguments，如查询日期date，以及查询地点location)。
{
"name":"weather_search",
"description":"用于天气查询",
"arguments":{
"location":"查询地点",
"date":"查询日期"
}
}

将上述工具的描述作为Prompt的一部分输入到LLM中，LLM就能利用自己的Planning能力，在合适的时机输出需要调用的工具名字，以及推断调用该工具所需要的参数。与思维链 (CoT) 以及反思 (Reflection) 能力一样，function call的能力也是在模型训练时获得的，基座LLM的能力同样对Tool use有至关重要的影响。

招募

打造深度研究 (Deep Research) 助手

在学习和课业生涯中，我们有大量的调研需求，而浩如烟海的文献资料常常需要我们花费巨量的精力进行阅读、筛选与总结。基于上述的Agent能力，我们可以设计并实现一个深度研究（Deep Research）助手，给定一个课题，Agent能够自动进行任务拆解、检索分析以及完成最终的报告撰写，从而帮助我们节省调研时间，提高效率。

1

招募对象

0基础对AI技术感兴趣的高中生（9-12年级均可）

2

招募人数

3个人

3

项目时长

3个月

4

授课内容

Python基础编程、机器学习基础、实战 AI Agent深度研究项目

感兴趣就来联系小助手吧👇🏻

相关文章：高中生AI项目招募 | 基于检索辅助生成（RAG）技术打造智能AI助教高中生AI项目招募｜AI与ART跨界而来AI项目招生 | 动嘴就能PS：探寻OpenAI GPT4o生图的奥秘

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

高中生AI项目招募 | 基于AI Agent打造深度研究 (Deep Research) 助手