新闻 发表于 2026-1-26 10:11

AI搜索之:DeepResearch(一)

作者:微信文章


北国风光,
千里冰封,万里雪飘。
望长城内外,惟余莽莽。
大河上下,顿失滔滔。一、漫谈

假设一个日常场景:你想搞懂 “2025 年为什么深度搜索突然火了”,打开浏览器查了一次资料,发现只提到 “谷歌、OpenAI 都在做”,不够深入;于是又搜 “深度搜索和之前的搜索有啥不一样”,边看边琢磨 “‘RAG 技术’和这个有关系吗?”;接着再搜 “RAG 与深度搜索的区别”,直到把零散信息串成完整逻辑。

这个 “查资料、读内容、做思考产生新问题” 的循环过程,就是 DeepSearch 的核心逻辑。

那 DeepResearch 呢?如果之后你要把这些思考整理成一篇《2025 深度搜索技术分析报告》,得先设计一个总体大纲: “引言、核心原理、行业案例、总结” ,再针对 “引言要讲技术背景”“案例要对比各公司产品” 等段落需求,每个章节不断 “查 - 读 - 思” 循环迭代更新完善章节内容,最后把所有更新完善后的章节串起来,统一术语、消除重复,形成一篇逻辑顺的长文。

这就是 DeepResearch 的工作:用 DeepSearch 当 “搜集资料的段落写手”,再用结构化框架把资料变成高质量报告。DeepSearch 是 “精准找答案的循环机器”,DeepResearch 是 “用循环机器写长报告的系统”。

DeepSearch是ReAct模式的具象化。DeepResearch更像是是Plan and Solve模式与ReAct模式结合的产物。
二、DeepSearch

2.1 deepsearch概念

DeepSearch 的核心不是 “一次搜得更深”,而是 “通过‘搜索 - 阅读 - 思考产生新问题’的循环,逐步逼近最优答案”。它区别于常见的 “单次搜索 + 生成”(比如传统 RAG)。

在deepsearch中:搜索环节利用搜索引擎探索互联网,阅读环节专注于对特定网页进行详尽的分析,推理环节则负责评估当前的状态,并决定是应该将原始问题拆解为更小的子问题或尝试其他的搜索方向。

停止条件:要么搜集到完整答案,要么用完预设的 “计算资源预算”(比如 token 上限),要么达到循环上限制。


2.2 实现流程

初始化准备:明确用户的原始问题(比如 “Deepseek-r1 为什么能提升搜索效果”),设置两个 “边界”:token 预算(最多用多少计算资源)、最大循环次数(最多多少次循环迭代),同时建一个 “知识空白问题队列”(用来放解决原始问题前需要先搞懂的子问题)。

循环推理核心步骤:

第一步:拿 “当前要解决的问题”—— 优先从 “知识空白队列” 里取子问题(比如原始问题是 “Deepseek-r1 提升搜索效果”,子问题可能是 “Deepseek-r1 的推理机制是什么”),如果队列空了,就处理原始问题。

第二步:判断 “下一步该做什么”——AI 会结合之前的之前的结果内容和当前的搜索结果,决定行动: 缺信息:触发 “搜索”,比如搜 “Deepseek-r1 推理机制 官方文档”; 不确定方向:触发 “反思”,比如 “之前搜‘官方文档’没结果,是不是该换‘技术博客’关键词?”,并把新的子问题(比如 “Deepseek-r1 技术博客 推理机制”)加入队列; 信息够了:触发 “尝试回答”,生成当前的答案草稿。

第三步:循环执行行动并积累信息 —— 搜索去重(避免重复搜一样的关键词)、query改写(如果需要)、阅读后会把检索结果的关键信息存成 “知识片段”;反思后会更新队列里的子问题。 停止与输出: 如果满足 “停止条件”(用完预算 / 失败次数超上限),就启动 “保底模式”—— 不管信息够不够,基于已有的知识片段生成答案; 如果没触发停止条件,就回到 “循环推理步骤”,重复 “拿问题 - 判行动 - 执行”,直到输出答案。
三、DeepResearch

3.1 概念

DeepResearch 是在 DeepSearch 基础上的 “升级包”—— 核心目标不是 “找答案”,而是 “生成长篇、有作用、高质量的研究报告”。它把 DeepSearch 当作 “基础工具”,再叠加 “结构化框架”:先规划报告的章节结构,每个章节用 DeepSearch 收集资料并生成初稿,最后整合所有章节,优化连贯性(比如章节间加过渡句)、统一性(比如同一技术术语不前后矛盾)、可读性(比如删除重复内容、补充图表说明)。


3.2 实现流程

deepresearch项目实现流程记录:
1、用户输入查询。

2、生成大纲:调用大模型为查询规划一个报告的结构和其中包含的段落,比如5个段落。每个段落包含title标题和content(段落要研究的内容),相当于生成一个报告大纲。

3、循环遍历每一个段落,循环迭代段落内容。对每个段落执行如下流程:
3-1:首轮搜索-阅读-思考:
调用大模型生成初始搜索词,大模型输入段落title、content,大模型输出search_query(带空格的搜索词条)、reason(推理原因)。
拿到search_query调用搜索引擎,搜索到topk的网页结果。
调用大模型总结搜索结果摘要,大模型输入段落title、段落content、搜索词search_query、搜索结果search_results,大模型输出与段落主体一致的搜索总结结果。
3-2:反思生成新问题-循环搜索,迭代n次:
调用大模型反思当前段落总结内容是否遗漏了主题的某些关键方面,继续生成新的网络搜索查询search_query,用以查询新知识,然后用查询到的新知识来丰富更新当前段落最新的总结结果。大模型输入段落title、段落content、上一次循环得到的段落总结结果,大模型输出新的search_query、reason(原因)。
使用新的search_query调用搜索引擎,搜索到topk的网页结果。
调用大模型使用新搜索到的结果对上一次的得到的总结结果进行更新。
3-3:循环迭代n次后得到当前段落最新的总结结果。

4、汇总生成最终报告:当3中的全部段落都执行完成后,得到每一个段落最新的搜索总结结果。将全部段落的搜索总结结果作为参考,调用大模型,生成最终的研究报告。大模型输入:每个段落的title,每个段落最新的搜索总结结果。
四、总结

核心关系:
DeepSearch 是 DeepResearch 的 “引擎”—— 没有 DeepSearch 的 “精准找答案” 能力,DeepResearch 就成了 “无米之炊”;而 DeepResearch 是 DeepSearch 的 “高阶应用”—— 把 “碎片化答案” 变成 “结构化报告”,拓展了 DeepSearch 的使用场景(比如行业分析、学术初稿撰写)。

DeepSearch 与 DeepResearch 的出现,本质是搜索技术从 “快但浅” 到 “深且准” 的转变,是AI搜索技术的新范式。

参考资料:
https://arxiv.org/abs/2504.03160
https://github.com/GAIR-NLP/DeepResearcher?tab=readme-ov-file#-introduction
https://github.com/mangopy/Deep-Research-Survey
页: [1]
查看完整版本: AI搜索之:DeepResearch(一)