萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 217|回复: 0

AI智能体·Manus交流及解读(附Manus该概念股)

[复制链接]
发表于 2025-3-7 04:53 | 显示全部楼层 |阅读模式
作者:微信文章
<div class="rich_media"><div class="rich_media_inner"><div class="rich_media_area_primary"><div class="rich_media_area_primary_inner"><div class="rich_media_wrp">

<div class="rich_media_content js_underline_content                       autoTypeSetting24psection            ">事件性驱动:受近期火爆全网的Manus智能体影响,今日盘中AI智能体板块暴涨

3月6日消息,来自中国的团队正式对外发布通用型AI Agent产品Manus,显示其性能超越OpenAI的同层次大模型,在 GAIA 基准测试中远远甩开了 OpenAI。 


1、行业动态

大模型进展:近期大模型和应用层面催化不断,阿里千帆发布32B的推理模型,其跑分可与满血版的DeepSpeed 21媲美,且能以约1/10的成本达到相应效果和性能,国内大模型性能正以超预期速度追赶海外模型,年内有望在多模态方面取得突破。

AI Agent新动态:初创公司Monica发布AI Agent产品Manus,它能通过自主AI代理解决各类复杂多变任务,如编写执行代码、浏览网页、操作应用并交付完整成果,前期市场所展望的个人助理正逐步实现。

         

2、Manus产品特点

核心定位与区别:Manus由中国团队Monica.im开发,是全球第一款通用型AI Agent产品,核心定位是自主执行复杂任务并交付成果,与传统AI助手(如GPT和Claude的助手)不同,它通过多代理架构和工具调用能力,在多个领域表现出色。

关键优势与功能:一是具有自主执行任务的能力,可直接交付成果,如进行简历筛选、股票分析、旅行规划等,用户离线时它仍可工作;二是有很强的跨领域工具调用能力,不仅能写代码,还能浏览网页、操作应用,在股票分析中可自动生成可视化分析仪表盘并提供投资建议。

技术领先性:在GAIA基准测试中排名较高,综合能力超越OpenAI同类产品,达到业内SOTA水平;多代理架构设计可通过独立信息运行N个子代理协作,保证任务执行的稳定和安全,稳定性和速度优于单台电脑执行;具有个性化能力,能记录用户偏好并优化输出形式,已有教育、金融、商业分析等四十多家案例。

         

3、Manus对行业的影响

标志AI Agent成熟:Manus的发布标志着AI Agent的成熟,今年可视为AI Agent型产品的元年,将AI的角色从回答问题升级为解决问题,如自动撰写市场调研报告、处理文件等。

对国内市场的影响:Manus性能超越OpenAI,对国内影响较大,国内信创的ETF等关联板块股价上涨,市场对通用型AI Agent期待较高,发布后内测邀请码遭抢购。

         

4、Manus技术细节

异步处理与任务分解:发送任务时,Manus会先将任务分解,有to - do list标记任务及完成情况,子Agent完成任务会修改列表,整个过程用户可离线,任务完成后会通知用户。子Agent运行在独立窗口,借助云端容器(如K8S和Docker)管理平台实现,在容器内完成编程、数据分析、浏览网页、抓取数据等任务。

任务执行流程:面对复杂任务,Manus通过支持工具调用的大模型先理解任务并分解成子任务,每个子任务对应一个子Agent,子Agent调用云端执行函数,输入任务的指令转化为工具调用参数传递给云端容器完成任务,这对云计算是利好,能增加云计算用量。

工具调用实现方式:大模型的工具调用能力可接受应用传递的工具定义,结合用户指令,提取与工具关联的任务,形成包含工具调用参数的子Agent并执行工具。

              

5、Manus与其他产品对比

与OpenAI Agent对比:OpenAI的Agent主要借助浏览器工作,任务多为网站操作,而Manus更聚焦完成具体任务,不单纯局限于网页,在web操作、数据分析等方面比OpenAI更丰富,但二者都主要进行API调用等操作,且都无法完成物理世界的任务。

与Copilot对比:Copilot只能做编程任务,代码大多不能执行且无执行结果报告;而Manus底层集成海量编代码能力,可实现代码编写、运行并产生结果,还能进行报告可视化输出,直接解决问题的能力跨度更大。

         

6、Manus相关问题解答

基础模型与芯片:Manus使用的基础大模型大概率有Claude的编程大模型、OpenAI,也有自己部署的DeepMind用于空气调用的大脑;推理芯片主要以H100为主,OpenAI部分直接调用API,无需采购芯片。

GALA Benchmark:全球代理评价框架中,GALA Benchmark是较成熟的,OpenAI也使用该评价指标,其含金量较高。Manus在该Benchmark上的表现是实际客观水平,因架构中引入大量编程任务进行校验,且代码可检测任务完成情况,其自主学习能力大部分来自代码。

任务执行范围:Manus执行任务主要针对公开网站和数据,对于完全不公开的APP无法执行任务,其能力局限于公开数据和公开知识经验,是对现有大模型形成的工具流方法在工程和产品上的创新。

成本与token用量:单任务平均成本约两美金,三个任务的token用量预估在1000个左右,成本数据可看出,token用量为推测。

云端生态体系看法:Manus的解决方案对云计算利好,能增加云计算消耗量,但在执行特定平台任务(如Windows打游戏任务)时存在局限性,因其容器技术(Docker和K8S)不支持Windows操作系统,它是ChatGPT的agent在web使用上的更深入发展,更多依赖API完成操作。

PDF读取方式:Manus读取PDF有两种方式,能读出文字则直接读取,无法读出则用OCR识别提取图片文字,PDF翻页只是可视化现象,真实读取速度远快于肉眼可见的翻页速度。

是否为套壳产品及复刻壁垒:从底层大部分由外部供应来看,可认为Manus是套壳模型,但从软件供应链管理角度,它是整合各模块的产品。阿里等国内模型大厂复刻大概流程可能不难,但要做到与它完全一致不太可能,细节上可能有差异。

准确率与token消耗比例:Manus通过编程大模型生成代码保证准确率,约能达到百分之八九十,但无法保证运行结果百分百符合客户需求;其token消耗量比传统chatbot最少高十倍,平均在10 - 100倍之间。

端侧使用情况:端侧配合大模型使用Manus当下可能可行,但准确率和重复试错率比云端高,且对端侧算力(GPU推理算力、CPU计算、内存)要求高,大部分用户在端侧难以使用,因Manus任务重且执行代码有安全风险,最多借助云端容器方式落地。

         

Q&A

Q:Manus推出的通用Agent比ChatGPT的通用Agent更强吗,为什么有这样的判断?

A:OpenAI的Agent主要借助浏览器工作,任务基本是完成网站上的操作,未涉及写PPT、写代码等。并非OpenAI做不出来,而是产品定位不同。Manus的Agent更聚焦完成具体任务,不单纯局限于网页,会根据任务选择操作场景,但和OpenAI有很多类似之处,主要任务还是在API调用、web操作、数据分析等方面,也无法完成如直接关机等物理世界的操作,只是在web上的操作比OpenAI更丰富。   

         

Q:Manus的Agent在什么场景下使用?

A:Manus的Agent和OpenAI不同,更聚焦完成具体任务,不单纯在网页,会根据任务选择操作场景。其主要任务还是在API调用、web操作、数据分析等方面,无法完成如直接关机等物理世界的操作。

         

Q:Manus AI调用的基础模型是哪一个或哪几个,使用的是什么芯片?

A:Manus AI调用的基础模型主要是OpenAI和Codex,有百分之八九十的概率。芯片大概主要使用H100的芯片来做推理,自己也有部署一部分像DeepLink之类的。

         

Q:Manus的GALA开头的Benchmark含金量如何?

A:目前全球代理的评价框架比较缺乏,Manus的这个Benchmark是比较成熟的,OpenAI也用这一套评价指标,所以当下其含金量还是可以的。

         

Q:是DeepMind确实在这个Benchmark比Manus弱,还是因为Benchmark的选择导致Manus貌似比DeepMind水平更高?

A:从结果来看,不是因为选择了这个Benchmark导致Manus分数更高,而是比较实际客观的水平。从架构上来说,即使在同样的模型基础情况下,Manus也会比DeepMind分数更高,因为它引入了大量编程任务进行校验,代码能相对简单地检测任务完成情况的对错,且其自主学习能力大部分来自代码,代码执行正确就可固化成成功经验。

         

Q:Manus使用的是哪个基础大模型,用的是什么芯片?

A:Manus使用的基础大模型可能有Claude的编程大模型、OpenAI,也会自己部署DeepMind进行调用。推理芯片主要以H100为主,OpenAI只是API,直接调用别人的API即可完成,无需采购芯片。

         

Q:Manus执行任务是要对应APP开放API,还是现有的API调用已经可以执行任务?

A:Manus执行任务大部分针对公开网站和数据,对于完全不公开的APP难以执行任务。其能力局限于公开数据和公开知识经验,是基于现有的大模型形成的一套工具流方法,只是在工程和产品上有一些创新,让执行更易用。

         

Q:Manus单任务的成本大概是多少,单任务用的token数大概是多少,这些是推测还是能看到具体数据?

A:单任务的平均成本能看到是两美金,token用量预估三个任务可能在1000个左右,成本是能明确看出的,token用量只能做推测。

         

Q:Manus的token用量一千多个是怎样估出来的,如何看待其任务和推理过程都在云端上跑的生态体系?

A:token用量是根据每次任务的反馈、整个思考过程以及其他处理时间来推测的。Manus现在的解决方案对云计算是利好,会极大增加云计算的消耗量。该架构对于数据分析等基于公开数据的任务可以支撑,但对于一些特定平台才能完成的任务,比如Windows系统下打游戏的任务则无法实现,因为其使用的Docker和K8S技术不支持Windows操作系统,有一定局限性。它是ChatGPT的agent外包、使用web的agent的更深入应用,更多依赖API完成下一步操作,而非纯粹依赖视觉大模型指导操作。   

         

Q:Manus在官方演示demo里读PDF是纯视觉识别一页一页识别,还是直接读取PDF的数据?

A:Manus读PDF有两步操作,如果能读出文字就直接读取每一页文字,如果文字无法读出则用OCR识别读图提取文字。PDF翻页只是可视化操作,造成AI在工作的现象,实际上可以不打开PDF,直接在后台找出所有内容。真实读文字速度比翻页快至少几千倍,即使通过OCR方法读PDF速度也比翻页快至少十几倍。

         

Q:Manus现在做的事情在本质上是否是套壳产品?国内模型大厂如阿里、字节在复刻上有没有非常大的壁垒?

A:从某种定义来看,Manus可被认为是套壳模型,其底层约80%是外部供应的,如虚拟机容器用的是Docker解决方案,工具调用决策、报告生成用的也是外部研发的大模型。但换个角度,软件类似供应链管理系统,是整合各模块供应商的产品。国内大厂复刻其大概流程并非很难实现,但要做到与整体完全一致不太可能,细节上可能有差异,该产品并非有很高门槛。

         

Q:Manus是怎么保证准确率的?Manus这种形式对token的消耗量与传统AI模型相比大概是什么比例?

A:Manus主要通过写代码保证准确率,先由编程大模型根据用户任务生成代码,代码正确运行率大概能保证百分之八九十,但运行结果是否符合客户真实需求无法百分百保证。其token消耗量最少比传统chatbot高十倍,平均在10 - 100倍之间,因为决策模型智能水平差可能导致多次循环,且每次要对结果进行检查。

         

Q:从端侧可以使用Manus吗?

A:当下可以用端侧大模型配合Manus,但准确率和重复试错率比云端高很多。Manus需要配合云端容器才能很好运行,对端侧的GPU推理算力、CPU计算和内存要求都很高,绝大部分用户在端侧不太可能用起来。与Copilot和IntellCode等AI不同,Manus任务较重,要执行代码,存在安全性问题,在端侧不太好落地,最多借助云端容器的方式落地。







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-3-10 22:30 , Processed in 0.058899 second(s), 17 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表