OpenAI全新Agent套件发布,自己手搓Manus人人都是AI全能打工人
作者:微信文章一、OpenAI全新Agent工具套件发布,可以自己手搓Manus通用Agent,人人都是AI全能打工人
在今天凌晨的召开的发布会上,OpenAI发布了全套Agent 开发套件
核心要点如下
1. ResponsesAPI:简化复杂任务调用
Responses API是原有ChatCompletionsAPI的升级版,整合了工具调用能力,单次API调用即可完成复杂任务,例如网页搜索、文件检索和计算机自动化操作。其特点包括:
内置工具集成:支持网页搜索(可配置国家、时区等参数)、文件搜索(支持21种格式如PDF、DOCX)以及计算机控制工具(CUA,可执行点击、输入等操作)。
兼容性与扩展性:兼容旧版API,未来计划支持音频处理和代码解释器。
定价分层:网页搜索费用较高(25-50美元/千次调用),文件搜索价格较低(2.5美元/千次调用)。
原有的Chat Completions API 也没下架,但Pesponses API 既兼容老API,又会持续更新新功能,除了老API 没有的Web搜索、文件搜索、计算机使用功能,未来还将推出音频和代码解释器。之前的代码稍微修改下代码格式,就可以成功调用了。
Responses API简洁强大、内置工具、统一设计、直观清晰
2. AgentsSDK:多智能体协作框架
这次OpenAI开源了一个硬货:OpenAIAgent 框架
这是一个开源的Agent 框架,单Agent 和多Agent 系统都可以构建,支持开发者构建多智能体系统,适用于复杂业务流程自动化,例如:
动态任务分配:在跨国电商场景中,可协调语言识别、库存管理、订单处理等不同功能的Agent协作。
安全与监控:提供行为追踪、安全检查机制和实时监控工具,确保智能体协作的可靠性和透明度。
[*]
模型兼容性:支持任何符合Chat Completions API的模型(如第三方模型DeepSeek),扩展了应用生态。
Agents SDK:
GitHub地址:https://github.com/openai/openai-agents-python
支持multi-agent(多Agent) 的框架,只要符合OpenAI Chat Completions API 的模型都能用,理论上DeepSeek 也能用,这对国内用户很方便。
3.三大核心工具:强化实际场景应用
内置工具(Built-in Tools):这里的工具一共有三个,分别是网页搜索、文件搜索和 Computer Using Agent(CUA)
在这次的官方发布中,包含三种内置工具:
[*]Web Search / 网页搜索
[*]
File Search / 文件搜索
[*]
Computer Use Agent(CUA)工具流程图
网页搜索工具:基于GPT-4o模型,实时抓取互联网数据并标注引用来源,适用于动态信息查询。
文件搜索工具:支持向量存储和元数据过滤,快速检索PDF、PPT等格式文件,提升企业知识管理效率。
计算机使用工具(CUA):通过截图识别界面元素,自动执行鼠标点击、文本输入等操作,实现跨平台自动化(如填写表格、操作软件)。
按官方计划,之后还会再加入「代码编译器」,等更新吧
这些东西,都需要前面提到的Responses API,方式较为通用
以下图片摘自:腾讯网的赛博禅心 的文章
能力对比
1)WebSearch-网页搜索:都可以配置,就是价格略贵,OpenAI的 API支持搜索了,国家、时区、搜索量等,可以配置的东西比较多,但价格不便宜
Google Search 的价格是5 美元1000 次
Bing Search 的价格是20 美元1000 次,
Open AI 的价格最便宜的25 美元1000 次,最贵的达到了50 美元1000 次。
2)FileSearch:版本更新
文件搜索也是旧功能的更新,支持包括常见的.pdf、.docx、.pptx等 21种格式(包括utf-8、utf-16以及ascii),价格调用1000 次2.5 美元,存储1 GB 每天0.1 美元。
3)计算机使用工具-CUA:截图就能实现自动化
Computer Use Agent可以让AI通过截图界面理解来执行交互操作,从而实现自动化功能,它可以识别鼠标单击、双击、滚动、坐标、路径,输入文本、等待、组合键、截图等共9 种行为,然后CUA 进行自动的执行,就能操作电脑了。
让AI 通过截图理解界面状态并执行交互操作,实现自动化任务。
在接口文档,发现这东西目前支持9 种行为
这些行为,将会被CUA 进行自动的组合和执行,达到操作电脑的效果
按OpenAI 的说法,性能肯定是Sota(遥遥领先)的
对了,如果你想快速体验,可以直接fork 这个项目
GitHub有示例项目可以去先试试体验一下。可以直接fork 这个项目
https://github.com/openai/openai-cua-sample-app
4. 监控工具及 开发者资源与生态建设
[*]
开源示例项目:GitHub已发布CUA示例应用和Agents SDK代码库,开发者可快速上手。
[*]
监控工具:提供执行过程追踪和调试功能,帮助优化智能体行为。帮助追踪和检查 Agent 的执行过程
5. 行业影响与未来展望
劳动力革命:OpenAI预测2025年将是“AI智能体元年”,Operator等工具将推动AI从“被动应答”转向“主动执行任务”,例如预订餐厅、处理电商订单等。
企业级应用:与DoorDash、Uber等企业的合作案例表明,智能体可优化客户体验、提升转化率,尤其在重复性任务中替代人力。
技术挑战:需平衡安全与创新,例如防范“提示注入攻击”和保障用户隐私。
二、总结
OpenAI此次发布的Agent套件标志着AI技术向“主动执行”的转型,通过ResponsesAPI和AgentsSDK降低了开发门槛,而内置工具则覆盖了搜索、文件管理和自动化操作等核心场景。随着多智能体协作能力的增强,未来或引发电商、客服、办公等领域的效率革命。开发者可通过官方资源快速接入,企业需关注安全与伦理问题以充分利用这一技术浪潮。Agent 套件的发布,必将改变我们的学习和生活,如果你还没有Manus 邀请码不妨式试OpenAI 的Agent套件
可点、赞、关、注、我
页:
[1]