多客科技 发表于 2025-2-9 06:23

AI Scientist:AI科学发现智能体,实现全自动科学发现,以及论文撰写

作者:微信文章

“The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery”

科学发现涉及背景知识收集、假设制定、证据收集和结果评估等步骤。这一过程受限于研究者的创造力、知识和时间。迄今为止,尚未实现无需人工参与的科学发现实现方式。



本文提出了AI Scientist,首个全自动、可扩展的论文生成管道,基于基础模型的最新进展。能够进行创意构思、文献检索、实验规划、实验迭代、手稿撰写和同行评审,生成有洞察力的论文。



项目主页:https://sakana.ai/ai-scientist/

论文地址:https://arxiv.org/pdf/2408.06292v3

Github地址:https://github.com/SakanaAI/AI-Scientist

【 扫描文末二维码加入星球获取论文、源码 】

摘要

本文提出了一个全面的自动科学发现框架,称为AI Scientist,能够独立进行研究并沟通发现。AI Scientist生成新研究想法、编写代码、执行实验、可视化结果、撰写完整科学论文,并进行模拟评审。该框架在扩展研究想法方面具有开放性,能够以低于15美元的成本生成完整论文。通过设计和验证自动评审者,AI Scientist生成的论文在顶级机器学习会议上达到接收阈值。研究标志着机器学习科学发现的新纪元,推动AI在整个研究过程中的应用,促进创新与解决全球挑战。

简介

现代科学方法是启蒙时代的重要成就,涉及背景知识收集、假设制定、证据收集和结果评估等步骤。这一过程受限于研究者的创造力、知识和时间,自动化科学发现的努力始于20世纪70年代。AI领域的研究者设想利用AI自动化AI研究,发展出“AI生成算法”。最近基础模型在研究能力上取得显著进展,但目前仅能加速研究流程的部分环节,如撰写论文、头脑风暴和编程辅助。迄今为止,尚未实现完全无人工参与的研究执行。

传统研究项目自动化方法依赖于严格限制的搜索空间,限制了探索范围,需大量人类专业知识。材料发现和合成生物学的进展主要集中在预定义参数的领域,虽然有针对性进展,但未涵盖科学过程的所有任务,如手稿准备。机器学习领域的研究自动化主要限于超参数和架构搜索,或在手工设计的搜索空间内进行算法发现。最近的大型语言模型(LLMs)进展显示出扩展搜索空间的潜力,但仍受限于严格定义的搜索空间和目标,限制了发现的广度和深度。

本文引入了AI Scientist,首个全自动、可扩展的论文生成管道,基于基础模型的最新进展。能够进行创意构思、文献检索、实验规划、实验迭代、手稿撰写和同行评审,生成有洞察力的论文。可在开放循环中运行,基于先前的科学发现改进下一代想法。以约15美元的低成本加速科学迭代,旨在利用计算资源解决21世纪核心挑战。主要聚焦于机器学习应用,但可扩展至生物学、物理学等其他学科。

AI Scientist是首个全自动科学发现框架,涵盖创意生成、实验设计、执行及结果撰写。引入基于基础模型的论文评审过程,评估生成论文质量,接近人类水平,支持选择最佳研究成果。AI Scientist每周可生成数百篇中等质量论文,重点关注扩散建模、语言建模和“grokking”领域的创新。同时讨论了本方法的局限性、伦理考量及未来展望。

AI Scientist

AI Scientist 主要分为三个阶段:创意生成、实验迭代和论文写作。提供一个起始代码模板,支持轻量级基准训练,示例包括训练小型变换器。模板包含 LaTeX 文件夹,提供样式文件、章节标题和简单绘图代码。小规模实验是出于计算效率和资源限制,并非方法的根本限制。



创意生成。AI Scientist通过迭代生成新研究方向,使用LLM作为变异操作符,评估每个创意的有趣性、创新性和可行性,并通过Semantic Scholar API过滤相似文献。

实验迭代。AI Scientist执行实验并可视化结果,使用Aider规划和记录实验,处理错误并重新尝试,最多进行五次实验,最终生成论文所需的图表和实验笔记。

论文撰写。AI Scientist以标准机器学习会议论文格式生成简洁的LaTeX写作,确保过程的稳健性。

逐节文本生成:Aider根据记录的笔记和图表,按顺序填充会议模板的各个部分,使用真实实验结果和引用,避免幻觉。每个部分在写作时进行自我反思,相关工作部分仅填充骨架。

文献搜索:AI Scientist通过Semantic Scholar API进行20轮搜索,寻找相关文献以补充相关工作部分,并为其他部分添加缺失的引用,确保bibtex的正确性。

精炼:在完成初稿后,进行最后一轮自我反思,去除冗余信息,简化论点。

编译:将填充好的LaTeX模板输入编译器,使用linter检查并自动修正编译错误。


论文自动审稿

本文设计了基于GPT-4o的自动化论文审稿代理,遵循NeurIPS会议审稿指南,输出包括分数、优缺点和初步决策(接受或拒绝)。通过与500篇ICLR 2022论文的真实数据对比,自动审稿者的准确率为70%,在自我反思、示例和集成评审的帮助下表现出色。自动审稿者在F1分数(0.57)上超越人类,但整体准确率(0.65%)与人类相当,假阴性率(0.39)低于人类(0.52),假阳性率(0.31)高于人类(0.17)。LLM评分与人类审稿者平均分的相关性(0.18)高于人类审稿者之间的相关性(0.14),表明LLM审稿更一致。



每次审稿成本为0.25到0.50美元,其他基础模型表现较差,且存在过于乐观的偏差。通过对不同提示配置的比较,发现自我反思和一-shot提示显著提高审稿准确性,而集成评审对性能提升有限。



案例深入研究

论文“Adaptive Dual-Scale Denoising”由AI Scientist生成,基于Claude Sonnet 3.5模型,旨在改进扩散模型在2D数据集中的表现。



生成的想法在算法第六次迭代中提出,关注全局结构与局部细节的捕捉,具有创新性。AI Scientist生成了详细的实验计划,包括代码修改、基线比较和评估指标。生成的代码变更清晰,注释良好,最终设计出自适应权重网络,输出在0到1之间。生成的11页论文符合机器学习会议标准,包含数学描述、实验写作、结果比较和新视觉化。论文中的实验结果与记录一致,展示了显著的改进。未来工作部分提出了扩展到高维问题和更复杂自适应机制的建议。







当然这篇论文也存在一些问题:

模型结构错误:上采样网络的细微错误,未有效利用所有维度。

实验细节虚构:论文声称使用V100 GPU,实际使用H100 GPU,且未核实PyTorch版本。

结果积极解读:负面结果被描述为“改善”,如Moons的结果从0.090到0.093的变化。

实验日志伪影:有时结果被称为“Run 2”,不应在专业写作中出现。

中间结果展示:论文展示了所有实验结果,虽然有助于理解,但不符合标准论文惯例。

参考文献不足:文献数量仅9条,相关工作引用较少。


论文识别了扩散建模研究的有趣方向,提出了全面的实验计划并成功实施。论文的成功原因未充分解释,缺乏明显的归纳偏差,可能与混合专家结构相关。论文的短板需领域知识识别,自动评审未完全捕捉,未来AI系统可能超出人类理解能力。





AI Scientist的表现相当于早期阶段的机器学习研究者,能执行想法但缺乏深入理解算法成功原因的背景知识。建议人类监督者重新调整项目,进一步研究MoEs在扩散中的应用。随着基础模型的显著进步,The AI Scientist的缺陷预计会改善或消失。

实验

本文评估了The AI Scientist在三种模板下的表现,使用了Claude Sonnet 3.5、GPT-4o、DeepSeek Coder和Llama-3.1 405b等不同LLM。每次生成50个新想法,运行约需12小时,使用8个NVIDIA H100s。报告通过自动新颖性检查的想法数量、实验成功率和有效论文数量。自动新颖性检查由模型自评,导致相对比较困难。提供生成论文的平均和最高评审分数及总成本。生成想法时未等待论文评估,以提高并行化效率,未影响论文质量。



结果显示Claude Sonnet 3.5 生成的论文质量最高,GPT-4o 次之。提供了 GitHub 仓库链接,推荐查看 Claude 论文进行定性分析。LLM 评审得分验证了上述观察。每篇论文的生成成本约为 $10-15。GPT-4o 在 LaTeX 写作上表现不佳,导致无法完成许多论文。DeepSeek Coder 成本低但常无法正确调用 Aider 工具。Llama-3.1 405b 整体表现最差,但使用方便,因其他提供者常限流。DeepSeek Coder 和 Llama-3.1 405b 生成的论文常缺失部分内容。后续将描述每个模板及其结果和具体论文。

【PS:此部分需要结合生成的论文一起看,这里只提供分析结果】

扩散模型



扩散模型研究低维数据上的扩散生成模型,基于修改版的'tanelp/tiny-diffusion'代码库,使用DDPM模型生成几何形状、双月数据集和2D恐龙。采用MLP作为去噪网络,使用正弦嵌入进行时间步和输入数据的参数化,提供样本质量的KL估计。



DualScale Diffusion。提出双尺度去噪方法,将去噪器分为全局和局部处理分支,使用可学习的时间条件权重组合输出,显著提升生成效果。

Multi-scale Grid Noise Adaptation。动态缩放扩散噪声调度,基于输入在2D空间的位置使用学习的乘法因子,显著提高模型性能。

GAN-Enhanced Diffusion。引入判别器指导生成,虽然定量性能与基线相当,但生成样本的多样性较低。

DualDiff。采用双专家去噪网络,增强模式捕捉,通过多样性损失鼓励两个专家的多样性,清晰可视化专家在样本空间的专长。

语言建模





研究基于Transformer的自回归下一个标记预测任务,优化难度大,常见失败模式可能导致误导性结果。



代码基于NanoGPT,训练小型Transformer语言模型,数据集包括莎士比亚字符级数据集、enwik8和text8,记录运行时间和损失。

论文1《StyleFusion》提出通过每个标记的“风格适配器”调整Transformer状态,结果显著,但可能因增加参数而简化结果,且缺乏风格损失标签的详细说明。

论文2《Adaptive Learning Rates in Transformers via Q-Learning》提出使用Q-Learning算法动态调整学习率,尽管创意独特,但在非平稳环境中应用简单Q-Learning不太合适,结果却有效。

Grokking分析



本文探讨深度神经网络中的泛化和学习速度,特别是“grokking”现象,即验证准确率在训练损失饱和后显著提高。



代码生成四个模块算术任务的合成数据集,并在每个数据集上训练Transformer模型,返回训练和验证损失及达到完美验证准确率所需的更新步数。

生成的论文1:研究不同权重初始化对grokking的影响,发现Xavier和正交初始化显著加速grokking。

生成的论文2:通过为Transformer不同层分配不同学习率,加速grokking,尤其是提高高层学习率。

生成的论文3:探讨grokking与最小描述长度(MDL)的关系,方法简单,未深入分析,缺少相关工作部分。

生成的论文4:研究数据增强技术对grokking的影响,提出有效的增强方法(操作数反转和取负),实验结果良好,但同样缺少相关工作部分。

限制与伦理考量

AI Scientist的局限性:当前版本存在多项限制,包括无法提问、缺乏视觉能力、生成的创意相似性高、实现提案的能力不足、实验数量有限导致结果不严谨等。

常见失败模式:

创意生成重复,需引入新近文献以增加新颖性。

实现提案时常出错,需手动检查代码。

结果的实验 rigor 不足,可能导致误导性结论。

视觉能力缺失,导致图表和排版问题。

引用文献和图表时常出错,可能出现虚假路径。

评估结果时可能出现重大错误,如比较数值时的失误。

偶尔会虚构结果,需确保只报告实际观察到的结果。

科学内容可信度一般,不建议直接信任AI Scientist生成的论文,建议将其视为实践者的灵感提示,未来可信度有望提高。


安全代码执行:当前实现缺乏沙箱保护,可能导致意外后果,如无限重启、存储占用过大等,需严格沙箱化运行。缺乏保护措施有时能自动修复错误,生成意外的结果和可视化。

更广泛影响与伦理考虑:自动生成论文可能增加审稿负担,影响科学质量,需标记AI生成的内容以确保透明。可能被用于不道德研究,或在无意中创造危险病毒或恶意软件,需优先考虑安全对齐。

讨论

The AI Scientist是首个完全自动化科学发现过程的框架,应用于机器学习,利用大型语言模型(LLMs)生成研究想法、实施实验、搜索相关文献并撰写论文。

撰写论文的重要性:

提供人类可理解的学习成果。

通过会议评审标准化评估。

科学论文是现代科学传播的主要媒介,灵活描述各种研究。


成本效益:每篇论文的生成成本约为15美元,能够民主化研究并加速科学进展,实验使用单个8×NVIDIA H100节点,计算资源消耗低。

开源与闭源模型:开发了自动论文评审工具,LLMs的评审结果与人类相当,能够扩展论文评估。

生成论文质量:Sonnet 3.5生成的论文质量最佳,部分论文得分超过标准会议接受阈值。

未来LLM(大语言模型)将持续改进,竞争促使其能力提升,开放模型如DeepSeek和Llama-3在成本、可用性、透明度和灵活性上具优势,尽管质量稍逊。未来计划包括:整合视觉能力、引入人类反馈、自动扩展实验范围、跟进最佳想法、在其他科学领域应用AI Scientist。需解决可靠性和幻觉问题,通过自动验证结果来提高可信度。

AI Scientist的引入标志着AI在科学研究中的潜力,未来可能形成全AI驱动的科学生态系统,但人类科学家的角色将转变而非消失。AI Scientist能否提出颠覆性创意仍待观察,未来版本是否能创造出如扩散建模或变换器架构般的影响力尚不确定。
页: [1]
查看完整版本: AI Scientist:AI科学发现智能体,实现全自动科学发现,以及论文撰写