【OpenAI全新Agent套件发布,自己手搓Manus人人都是AI全能打工人】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-3-12 11:38

OpenAI全新Agent套件发布,自己手搓Manus人人都是AI全能打工人

作者：微信文章
一、OpenAI全新Agent工具套件发布，可以自己手搓Manus通用Agent，人人都是AI全能打工人

在今天凌晨的召开的发布会上，OpenAI发布了全套Agent 开发套件

核心要点如下

1. ResponsesAPI：简化复杂任务调用

Responses API是原有ChatCompletionsAPI的升级版，整合了工具调用能力，单次API调用即可完成复杂任务，例如网页搜索、文件检索和计算机自动化操作。其特点包括：

内置工具集成：支持网页搜索（可配置国家、时区等参数）、文件搜索（支持21种格式如PDF、DOCX）以及计算机控制工具（CUA，可执行点击、输入等操作）。

兼容性与扩展性：兼容旧版API，未来计划支持音频处理和代码解释器。

定价分层：网页搜索费用较高（25-50美元/千次调用），文件搜索价格较低（2.5美元/千次调用）。

原有的Chat Completions API 也没下架，但Pesponses API 既兼容老API，又会持续更新新功能，除了老API 没有的Web搜索、文件搜索、计算机使用功能，未来还将推出音频和代码解释器。之前的代码稍微修改下代码格式，就可以成功调用了。

Responses API简洁强大、内置工具、统一设计、直观清晰

2. AgentsSDK：多智能体协作框架

这次OpenAI开源了一个硬货：OpenAIAgent 框架

这是一个开源的Agent 框架，单Agent 和多Agent 系统都可以构建，支持开发者构建多智能体系统，适用于复杂业务流程自动化，例如：

动态任务分配：在跨国电商场景中，可协调语言识别、库存管理、订单处理等不同功能的Agent协作。

安全与监控：提供行为追踪、安全检查机制和实时监控工具，确保智能体协作的可靠性和透明度。

[*]
模型兼容性：支持任何符合Chat Completions API的模型（如第三方模型DeepSeek），扩展了应用生态。

Agents SDK：

GitHub地址：https://github.com/openai/openai-agents-python

支持multi-agent(多Agent) 的框架，只要符合OpenAI Chat Completions API 的模型都能用，理论上DeepSeek 也能用，这对国内用户很方便。

3.三大核心工具：强化实际场景应用

内置工具（Built-in Tools）：这里的工具一共有三个，分别是网页搜索、文件搜索和 Computer Using Agent（CUA）

在这次的官方发布中，包含三种内置工具：

[*]Web Search / 网页搜索
[*]
File Search / 文件搜索
[*]
Computer Use Agent（CUA）工具流程图

网页搜索工具：基于GPT-4o模型，实时抓取互联网数据并标注引用来源，适用于动态信息查询。

文件搜索工具：支持向量存储和元数据过滤，快速检索PDF、PPT等格式文件，提升企业知识管理效率。

计算机使用工具（CUA）：通过截图识别界面元素，自动执行鼠标点击、文本输入等操作，实现跨平台自动化（如填写表格、操作软件）。

按官方计划，之后还会再加入「代码编译器」，等更新吧

这些东西，都需要前面提到的Responses API，方式较为通用

以下图片摘自：腾讯网的赛博禅心的文章

能力对比

1）WebSearch-网页搜索：都可以配置，就是价格略贵，OpenAI的 API支持搜索了，国家、时区、搜索量等，可以配置的东西比较多，但价格不便宜

Google Search 的价格是5 美元1000 次

Bing Search 的价格是20 美元1000 次，

Open AI 的价格最便宜的25 美元1000 次，最贵的达到了50 美元1000 次。

2）FileSearch：版本更新

文件搜索也是旧功能的更新，支持包括常见的.pdf、.docx、.pptx等 21种格式（包括utf-8、utf-16以及ascii），价格调用1000 次2.5 美元，存储1 GB 每天0.1 美元。

3）计算机使用工具-CUA：截图就能实现自动化

Computer Use Agent可以让AI通过截图界面理解来执行交互操作，从而实现自动化功能，它可以识别鼠标单击、双击、滚动、坐标、路径，输入文本、等待、组合键、截图等共9 种行为，然后CUA 进行自动的执行，就能操作电脑了。

让AI 通过截图理解界面状态并执行交互操作，实现自动化任务。

在接口文档，发现这东西目前支持9 种行为

这些行为，将会被CUA 进行自动的组合和执行，达到操作电脑的效果

按OpenAI 的说法，性能肯定是Sota（遥遥领先）的

对了，如果你想快速体验，可以直接fork 这个项目

GitHub有示例项目可以去先试试体验一下。可以直接fork 这个项目

https://github.com/openai/openai-cua-sample-app

4. 监控工具及开发者资源与生态建设

[*]
开源示例项目：GitHub已发布CUA示例应用和Agents SDK代码库，开发者可快速上手。
[*]
监控工具：提供执行过程追踪和调试功能，帮助优化智能体行为。帮助追踪和检查 Agent 的执行过程

5. 行业影响与未来展望

劳动力革命：OpenAI预测2025年将是“AI智能体元年”，Operator等工具将推动AI从“被动应答”转向“主动执行任务”，例如预订餐厅、处理电商订单等。

企业级应用：与DoorDash、Uber等企业的合作案例表明，智能体可优化客户体验、提升转化率，尤其在重复性任务中替代人力。

技术挑战：需平衡安全与创新，例如防范“提示注入攻击”和保障用户隐私。

二、总结

OpenAI此次发布的Agent套件标志着AI技术向“主动执行”的转型，通过ResponsesAPI和AgentsSDK降低了开发门槛，而内置工具则覆盖了搜索、文件管理和自动化操作等核心场景。随着多智能体协作能力的增强，未来或引发电商、客服、办公等领域的效率革命。开发者可通过官方资源快速接入，企业需关注安全与伦理问题以充分利用这一技术浪潮。Agent 套件的发布，必将改变我们的学习和生活，如果你还没有Manus 邀请码不妨式试OpenAI 的Agent套件

可点、赞、关、注、我

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

OpenAI全新Agent套件发布,自己手搓Manus人人都是AI全能打工人