绝密 Devin 架构
更具体地说,构建您自己的 AI 代理。
Devin 使用 GPT-4
,而人们已经开始用 Claude-3-Opus 构建替代方案
Devin 的 UI 体验更好。
例如,它甚至看不到浏览器,但它确实存在于用户面前
此外,你可以随时与它“交谈”,就像与人交谈一样,它会在后台不断执行和调试你的想法。(这是必要的,因为构建应用程序需要 15-20 分钟)
由于 Devin 使用的是 GPT-4,这很快就会变得昂贵,是的,它甚至可能比人类更昂贵。
当然,这背后付出了很多努力。
但是,Agent 仍处于起步阶段,还有很大的改进空间。
任何与魔法无异的技术都隐藏着一些东西。开放才是出路。
构建一个与环境工具集成的复杂代理:shell、代码编辑器和网络搜索可能并不像看起来那么困难。
我们已经在开源中见证了类似 Devin 系统的元素,在接下来的几个月里它们会变得更好。没有护城河。
即使是像 Claude Opus 这样的原始 LLM 也在编码能力测试 HumanEval 中取得了 84.9% 的成绩,而 GPT-4 也取得了 81.7% 的成绩。
HumanEval 上的代码生成
带有 GPT-4 的AgentCoder等多智能体框架在人类评估中已经取得了令人印象深刻的 96.3% 的准确率。
AgentCoder 是一篇于 1 月下旬发布的研究论文,与 Devin 非常相似!
AgentCoder 具有:
— 思路链
— 终端访问
— 测试生成
— 错误反馈
这些就是您构建自己的 Devin 所需要的东西!
AgentCoder 有一个与专门代理的协作系统:
— 程序员代理
— 测试设计者代理
— 测试执行者代理
在编码过程中,程序员代理专注于根据测试执行代理的反馈来生成和改进代码。
测试设计代理为生成的代码生成测试用例,测试执行代理用测试用例运行代码并向程序员写反馈。这种协作系统确保了更有效的代码生成。
AutoDev:自动化人工智能驱动开发
微软还发布了全自动AI驱动的软件开发框架AutoDev ,旨在自主规划和执行软件工程任务,在HumanEval上达到了91.5%的准确率。
但这不是全部!使用LDB + Reflexion的框架也达到了 95.1%
大型语言模型调试器 (LDB) – 调试框架
这表明这些框架的进步是巨大的!
您可以从这些框架中获取组件并构建一个精心设计的新框架,该框架以先前研究的最佳实践和工具为基础并加以改进。
您还可以为自己的特定用例构建 Agentic 系统(使用一种适合所有解决方案的解决方案很难做到这一点)
假设您想要利用大型生成模型 (LGM) 的功能来开发用于机器学习 (ML) 目的的端到端数据驱动发现的自动化系统,如果您正在构建具有任何容量的代理,那么您就可以轻松做到这一点。
利用大型生成模型进行数据驱动的发现
你甚至不必从头开始,你可以在以前的研究和工具的基础上进行构建,有许多开源项目,如gpt-pilot,它建立在“第一个真正的人工智能开发者”的概念之上
GitHub – Pythagora-io/gpt-pilot:第一位真正的 AI 开发者
第一位真正的 AI 开发者。通过在 GitHub 上创建账户来为 Pythagora-io/gpt-pilot 开发做出贡献。
github.com
它是一个相对简单的框架,可与开发人员合作创建应用程序。它具有以下代理:
规范编写代理 — 根据用户输入编写项目描述
架构师代理 — 创建架构
技术主管代理 — 分解项目并创建任务
开发人员代理 — 实施任务
审阅者代理 — 检查代码
我们还有一个大型行动模型框架,如LaVague这样的自动化框架,用于将自然语言指令转换为无缝的浏览器交互。
LaVague,使用大型动作模型框架实现自动化
使用大型动作模型框架实现自动化 – lavague-ai/LaVague
像Magic这样的公司是从零开始构建的,甚至是 LLM — — 背后的大脑也使用了不同的架构来实现。
有了这么多现成的工具,您也可以构建一个 Devin,虽然不那么复杂,但您可以对其进行自定义,以优化您自己的指标和您自己的任务!
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/3814