|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
引言:AI科研从“想象”走向“工程现实”
很多人谈AI科研,喜欢用一句话下结论:要么“AI科学家来了,人类研究员要失业了”,要么“AI for research都是噱头”。对这种“一句话判断”我们要警惕,因为真正发生的变化,不在于AI是不是“科学家”,而在于科研这件事的若干关键环节——创意、检索、执行、验证、写作、评审——正在被重新组织。它不是AI对人类的线性替代,而是深层赋能。
我们用2023—2025年的九篇论文,拼成一条AI for Research的完整链条。FutureHouse和OpenScholar把文献综述从“写得像”推到“证据链可追溯”;斯坦福两项规模化研究把“创意—执行”鸿沟钉死;港大AI-Researcher尝试把科研拆成可协调的多阶段过程;CMU的Coscientist把LLM接到真实实验链路;;Sakana AI把端到端系统推入真实workshop评审场景;Google的co-scientist明确提出“协作范式”,把人放回流程中心。
下面我们按“科研链条”的顺序走一遍,看看AI for Research的前沿进展。
一、创意:Can LLMs Generate Novel Research Ideas?(Stanford)
2024年,斯坦福的Si等人做了一项对照实验,标题很直白:《Can LLMs Generate Novel Research Ideas?》。这篇论文最可贵的地方在于:它不是挑几个漂亮demo,而是把人类研究者和LLM放在同一套规则里盲评。
他们招募了100多位NLP研究者参与,其中49位写创意,79位做盲评。创意的主题并不是随便选,而是从近年顶会征稿主题里抽出七个方向(Bias、Coding、Safety、Multilingual、Factuality、Math、Uncertainty)。创意写作也不是随便写,而是统一用类似基金申请的模板,把问题、动机、方法、实验计划、测试案例、备选方案都写出来。最后再用LLM把文风统一一下,尽量避免评审靠“语气”猜来源。
评审结果很“上头”:AI创意在新颖性(Novelty)上显著高于人类创意,在兴奋度(Excitement)上也更高。与此同时,一个细节很关键:AI在可行性(Feasibility)上略弱于人类——差距不显著,但方向一致。
更值得注意的是他们的工程策略:AI不是靠“灵感”,而是靠“规模化搜索”。每个主题生成4000个候选创意,先用Sentence-Transformers做语义去重(相似度阈值0.8),最后只剩下大约5%的非重复创意;再用基于ICLR投稿/评审数据训练的排序器,用瑞士赛制多轮两两比较,把“更像论文”的方案顶上来。
这篇论文揭示的不是AI更具创新能力,而是当你把创意当作可搜索空间时,LLM更像一个高吞吐探索器——用算力换覆盖面,通过大力出奇迹确实能筛选出让人类折服、眼前一亮的学术idea。
二、执行:The Ideation–Execution Gap(Stanford)
但科研不是只看创意,别光审idea,还要看能不能落地。
2025年,还是这批斯坦福作者,把第二篇论文干脆命名为《The Ideation–Execution Gap》。它做的事只有一件:把AI和人类的创意拿去执行。
他们招募43位研究者执行创意,随机分配执行19个人类创意、24个AI创意。每个项目平均投入100小时以上,最后交付的是一个可复现项目和一篇4页论文草稿,然后再盲评。
这一步的意义非常大:很多关于AI科研的争论,卡在“创意阶段”——因为创意阶段天生容易陷入“如果成功就很美”的条件式评分。执行阶段不一样:你必须面对真实数据、真实基线、真实成本、真实失败。
结果也非常干脆:AI创意在执行后的评分下降幅度显著大于人类创意。作者把这种现象称为“理想—执行鸿沟”。
为什么会出现鸿沟?论文里有一个非常典型的模式:AI创意更喜欢提出依赖昂贵人类评估的实验设计(比如招募母语者、专家标注等),执行时为了省钱省时间往往被迫替换成自动评估(例如LLM-as-judge),结果方法论争议立刻出现;再加上算力、数据、评测、复现成本等工程摩擦在执行阶段集中爆发,创意阶段的“漂亮假设”被现实逐个清算。
所以这篇论文给出的“硬结论”是:
新颖性≠有效性。
更难的是可落地的创新:在真实约束下能跑通、能复现、能优于强基线。
AI也好,人类也好,不仅要提出创新性idea,还要实施验证达到真实的预期效果。
三、编排:科研工作流(HKU)
如果创意与执行之间存在断层,那么下一步自然是:能不能用系统把断层“衔接”起来?
2025年,香港大学Tang等人的《AI-Researcher》给出一种回答:把科研当作多阶段过程来设计——文献理解、概念抽象、实现迭代、实验验证、论文写作——每一步由专门Agent负责,通过反馈闭环保持对齐。
他们提出Scientist-Bench作为评估载体,覆盖扩散模型、向量量化、图神经网络、推荐系统等多个AI子领域,共22篇论文。任务分两档:Level-1给明确研究指令考执行能力;Level-2只给参考文献与数据考自主探索;并且做匿名化处理,尽量减少“背答案”的可能。
AI-Researcher最值得关注的不是具体分数,而是它对科研过程的“拆解方式”:它把幻觉当作系统风险,把执行失败当作流程问题,把写作一致性当作工程挑战。你能明显感觉到,讨论已经从“模型能力”转向“过程治理”。
科研不只是灵感,而是一组可被拆解、协调、反馈、迭代的过程环节;AI参与的,是这种过程组织。
注意,这不是说科研变成流水线。科研的探索性依然存在,只是其中有相当部分工作是结构化的:资料搜集、概念对齐、实现调试、实验记录、写作一致性——这些本来就可以被组织得更好。
四、落地:文献综合、实验自动化与协作式共研
“AI赋能科研”有三条清晰路径:文献综合、实验自动化、协作式共研。
1)文献综合:PaperQA2(FutureHouse 2024)与 OpenScholar(Nature, 2025接收)
FutureHouse的PaperQA2聚焦“科学文献工作流”:检索、证据聚合、引用追踪、生成答案。它把RAG拆成工具链(Paper Search、Gather Evidence、Citation Traversal、Generate Answer),让系统能迭代搜索与更新证据状态,而不是“一次检索、一次生成”。
OpenScholar则进一步把“文献综合”工程化成一个可评测、可校验的系统:提出专用数据存储与基准(ScholarQABench),强调从海量开放论文语料检索证据、生成长回答、并做引用校验。论文中也非常尖锐地指出:在要求引用的场景里,纯参数模型会出现大量“编造引用”,而结构化检索与校验能显著改善引用可靠性与覆盖度。
如果要用一句话总结这条路径:AI写综述已经从“写得像”进化为“证据链可追溯”。
2)实验自动化:Coscientist(CMU, Nature 2023)
Coscientist把LLM接到真实实验链路上:Planner(GPT-4)负责任务规划与工具调用,配合网络搜索、文档检索、Python代码执行,以及通过API驱动云实验室或液体处理机器人完成实验操作。
它展示的关键点不是“化学推理开挂”,而是一个非常工程化的事实:当你把搜索、文档检索、代码执行、实验自动化作为可调用工具,并让LLM学会在这些工具之间组织流程时,实验科学中一部分可流程化环节确实可以被端到端串起来。尤其是“搜索增强”对降低合成规划幻觉的价值,在论文里有具体对比与案例。
3)协作式共研:AI co-scientist(Google 2025)
Co-scientist的核心定位很清楚:AI不是替代科学家,而是作为协作者增强人类的假设生成与研究计划构建。系统采用多Agent框架(Generation、Reflection、Ranking、Evolution、Meta-review等),强调通过辩论、锦标赛排序、迭代演化提升假设质量,并配合检索等工具增强落地性。它强调“scientist-in-the-loop”:目标与约束由科学家给出,AI在约束内扩大搜索与推理空间。
这条路径更像未来的主流形态:把科研中最耗散的探索、检索、组合、候选生成规模化,让人类把精力集中在高价值判断、关键实验设计与伦理责任上。
五、端到端自动科研:从“能跑通”到“敢进评审”的压力测试
The AI Scientist(Sakana AI, 2024)与 The AI Scientist v2(2025)
Sakana AI的两篇工作代表了“端到端自动科研流水线”的探索:从想法、实验、分析、作图、写作到评审。v2论文报告他们把自动生成稿件送入真实ICLR 2025 workshop评审流程,其中有稿件在评审分数上达到了workshop接收阈值水平;同时与组织者约定在评审后撤回,以避免未经充分共识就进入正式学术记录。
它们的意义更像一次“压力测试”:不是宣告“AI已经会做科研”,而是证明“端到端流水线”正在逼近可提交门槛,同时把引用幻觉、实验严谨性、论证深度、评审偏差等问题摊开。
结语:AI尚无法替代研究员,但已经重构科研流程结构
把这些研究串起来,会得到一个比“AI科学家来了”更靠谱的结论:
创意可以规模化生产,但执行的成本和挑战不容小觑;科研不是单点能力,而是一个包含调研、假说、实现、验证、修订的多阶段认知过程,其中存在可被结构化组织与协同优化的环节;最先落地的形态不是“替代科学家”,而是文献综合工具链、实验自动化工具链、协作式共研系统;端到端自动科研正在做真实评审压力测试,但离“稳态高质量”仍有距离。
所以短期图景可能是:
AI不会替代科学家,但会把科学家从大量重复、耗散、低回报的环节中解放出来,推动科研过程变得更可组织、更可协作、更可追溯。
真正改变科研格局的,未必是一个“万能AI科学家”,而更可能是一整套多Agent协作系统:有代理负责检索与证据组织,有代理负责概念拆解与实现对齐,有代理负责实验迭代与自动化验证,有代理负责写作一致性与引用校验,而人类则站在整个流程的核心环节:想象、假说、编排、把关。AI短期难以取代人类,但不会使用AI赋能的人类研究员将必然低效、面临失去科研竞争力的风险。
参考文献
Si, C., Yang, D., & Hashimoto, T. (2024). Can LLMs Generate Novel Research Ideas? arXiv:2409.04109.
Si, C., Hashimoto, T., & Yang, D. (2025). The Ideation–Execution Gap arXiv:2506.20803.
Tang, J., Xia, L., Li, Z., & Huang, C. (2025). AI-Researcher arXiv:2505.18705.
Boiko, D. A., et al. (2023). Autonomous chemical research with large language models. Nature.
Skarlinski, M. D., et al. (2024). Language Agents Achieve Superhuman Synthesis of Scientific Knowledge. arXiv:2409.13740.
Asai, A., et al. (Accepted 2025). Synthesizing scientific literature with retrieval-augmented language models. Nature, doi:10.1038/s41586-025-10072-4.
Lu, C., et al. (2024). The AI Scientist arXiv:2408.06292.
Yamada, Y., et al. (2025). The AI Scientist-v2 arXiv:2504.08066.
Gottweis, J., et al. (2025). Towards an AI co-scientist arXiv:2502.18864.
|
|