Warning: Missing argument 3 for write(), called in /www/wwwroot/biwei1.cn/incs/robot.php on line 68 and defined in /www/wwwroot/biwei1.cn/incs/data.php on line 487 这两天国内 AI 圈最火的非 Manus 莫属了,很惭愧我没有邀请码,也没直接试用过,但也看了好几个别人分享的回放,通过回放以及其他人分享的使用视频,再结合我自己使用同类产品的经验,基本上可以还原它的技术实现和产品设计了。
不足:
• 通过 ToDo List 规划的方式,虽然可以让 AI 探索的路径不至于太发散,但是会让结果趋于平庸,毕竟稍微复杂一点的任务是需要根据获得的信息做动态调整的。
• 受限于模型的能力和上下文窗口长度,在资料的筛选,和最终资料的合并整理上,会有比较大损耗,最终生成结果和质量大部分时候是比较平庸的。
• 使用目前模拟浏览器搜索、点击、滚动,再用视觉识别文字图表的方式,时间成本和资源成本都不低,通过 OCR 获取屏幕内容也可能会导致信息缺失。
技术实现
一图胜千言,图1 这里我大致画了一下 Manus 的架构图(不代表真实实现,仅作示意参考),主要有几个模块:
1. 虚拟机:一个 Linux 系统的虚拟机,安装有
• Chrome 浏览器,用来访问网页
• Python 运行环境,可以执行脚本分析数据,可以启动一个网页运行环境
2. 任务规划器:根据用户输入的任务请求,拆分成 ToDo List,我推测是 Claude 模型,因为这一步至关重要,必须要求模型有很强的推理能力,目前来说 Claude 3.7 Sonnet 应该是很经济实惠的选择
3. 任务执行调度器:根据 ToDo List 的任务清单,逐一执行,根据任务去选择最合适的 Agent。由于这一步重点是在 Agent 的选择,所以不需要能力太强的模型,可以用开源模型比如 Qwen 稍微微调一下就可以用了。
4. 各种执行不同类型任务的 Agents:Manus 内置了很多 Agent,比如最复杂的应该是类似于 OpenAI Operator 的网页浏览 Agent,比如根据特定 API 检索特定数据的 Agent,每个 Agent 在完成任务后都会把任务结果写到虚拟机。
5. 任务汇总生成器:当每个子任务执行完成后,任务执行调度器就会通知任务汇总生成器,任务汇总生成器就会去虚拟机读取 ToDo List 以及各个子任务的生成结果,把这些结果汇总整理生成最终结果,根据任务要求,可能是一份调研报告,可能是网页程序。由于这一步要求有极强的推理能力和语言能力,所以必然要求一个很强的模型,所以我猜这里也应该是 Claude 3.7 Sonnet。
比如说 OpenAI 的 Deep Research,虽然开源或者商业的竞品很多,但是效果比它好的还没有第二家,因为它用来规划任务、选择工具、汇总的模型是他们家最强的推理 o3 模型,可能也是业界最强的推理模型,无论是推理能力还是上下文长度都超过了公开的 Claude 3.7 Sonnet 模型,同时他们还基于 o3 针对 Deep Research 做了大量的强化学习训练,让模型在执行任务和生成内容都可以取得很好的效果,模型能力就是 OpenAI 的护城河。
比如说 Google,虽然模型不一定有 OpenAI 的强,但是它们家的数据搜索能力是最强的,可以获取到优质的数据源,所以效果也不错,数据搜索就是 Google 的护城河。
比如说经常被比作是“套壳”的 AI 产品 Perplexity,模型比不过 OpenAI,数据搜索比不上 Google,但是依然在 AI 搜索中占有很重要的地位,它依赖的是独特的用户体验,更懂用户,更好的提供了用户想要的搜索结果。