介绍
在我最近的文章《从即时工程到代理工程》中,我提出了一个 AI 代理工程框架,该框架引入了一种用于设计和创建 AI 代理的思维模型。总结一下,该框架提出了以下结构:
- AI 代理被赋予工作
- 工作需要采取行动才能完成
- 执行操作需要能力
- 能力具有所需的熟练程度
- 所需的熟练程度需要技术和技巧
- 技术和技巧需要协调
如果您错过了那篇文章或者需要再次参考,您可以在这里找到它。
虽然框架很简单,但从更深层次来看,它涉及广泛的主题和想法。深入研究更广泛框架提出的概念是一项艰巨的任务,在本文中,我们将继续我们的工作,重点关注 AI 代理能力工程框架。该框架的方法依赖于分类导向的思维方式,它扩展了主要植根于认知和行为科学的概念。
认知和行为科学基础
正如我在其他文章中提到的,在人类工具和技术发展的整个历史中,我们经常以自己为灵感或模型来构建我们想要构建的东西。人工智能本身的一个典型例子是受人脑启发的神经网络。为了构建人工智能代理能力的框架,自然而然地会求助于认知和行为科学来获得灵感、指导和有用概念的扩展。让我们首先从高层次上了解这些科学的含义。
认知科学
认知科学是一门研究思维及其过程的跨学科学科,涵盖心理学、神经科学、语言学和人工智能等领域。它为人类如何感知、思考、学习和记忆提供了重要见解。
行为科学
行为科学是一门研究认知过程和行为的跨学科领域,通常考虑个体与其环境之间的行为互动。它包括心理学、社会学、人类学和经济学等学科。
随着对人工智能代理能够完成的任务的期望不断达到新的高度,将我们的能力框架建立在认知和行为理论的基础上,将为我们开始满足这些期望奠定坚实的基础,并帮助我们开启一个人工智能代理能够像人类一样熟练地执行复杂工作的未来。
AI 代理能力框架
在深入讨论细节之前,让我们从高层次考虑如何对所谓的“能力”进行分类,这些能力推动我们的代理在努力完成“工作”时需要采取的“行动”。我认为,一般来说,它们属于感知、思考、行动和适应类别。从那里,我们可以继续在更精细的层面上识别这些类别中的示例能力。虽然最终的框架在类别上是一致的,但请记住,细粒度能力和类别之间的隐含关系是近似的。实际上,这些能力在整个框架中紧密交织在一起,试图对这种多维性进行建模在这个阶段并不是特别有用。下面是构成框架的主要类别和子类别的直观表示,没有您稍后将看到的类别对齐。
虽然我们的主要重点是以 LLM 为中心的 AI 代理工程,但为了面向未来并允许将这些框架扩展到具象 AI 和机器人领域,我们也融入了在这些环境中适用的概念。
最后,我们没有在框架中明确处理自主性,因为它更适合于特定代理或其多项能力的总体特征。也就是说,自主性不一定是代理在其给定工作中有效运作所必须满足的一项要求。
有了这个基础,让我们扩展整个框架。
感知
涵盖代理从环境中获取、解释和组织感官信息的能力。它涉及检测、识别和理解适当的刺激,使代理能够按预期执行。细粒度功能的示例包括:
- 视觉处理:图像和物体的识别和处理。
- 文本数据处理:文本识别和处理
- 听觉处理:语音和声音识别和处理
- 触觉处理:触摸识别和处理。
- 嗅觉和味觉处理:气味识别和处理。
- 感觉统合:结合来自不同感觉输入的数据,实现连贯的理解
思维
指使代理能够处理信息、形成概念、解决问题、做出决策和应用知识的能力。细粒度能力的示例包括:
情境理解与意识
- 情境意识和理解:识别和理解情境、环境、空间和时间背景。
- 自我意识和元认知:自我意识、自我监控、自我评价、元认知知识
注意力和执行功能
- 选择性注意:关注相关数据,过滤掉不相关的信息
- 分散注意力:同时管理和处理多个任务或信息源
- 持续注意力:长时间保持注意力和集中力
- 计划:制定一系列行动或策略来实现特定目标。
- 决策:分析信息、评估选项并选择最佳行动方案。
- 抑制控制:抑制不适当或不想要的行为或动作。
- 认知灵活性:在思考两个不同的概念或同时思考多个概念之间切换
- 情绪调节:用适当的情绪来管理和回应情绪体验
记忆
- 短期记忆:暂时保存和处理信息
- 工作记忆:积极处理和操纵信息
- 长期记忆:长期存储和检索信息
推理与分析
- 逻辑推理:根据形式逻辑和结构化规则得出结论
- 概率推理:根据概率和统计模型做出预测和决策
- 启发式推理:运用经验法则或捷径寻找解决方案
- 归纳推理:从具体观察中进行概括
- 演绎推理:从一般原则或前提得出具体结论
- 溯因推理:形成假设来解释观察结果
- 类比推理:通过寻找与以前遇到的情况的相似之处来解决问题
- 空间推理:理解和推理空间关系
知识运用与应用
- 语义知识:获取并应用构成概念的一般世界知识和特征
- 情景知识:获取和使用特定事件和经历的知识
- 程序性知识:知道如何有效地执行任务和操作
- 陈述性知识:获取和使用事实信息
- 语言理解:理解和解释语言
社交和情感智力
- 情绪识别:检测和解读情绪
- 社交互动:以社交适当的方式与人类或其他主体互动
- 同理心:理解并回应他人的情绪状态
- 心智理论:推断和理解心理状态、意图和信念
- 社会认知:识别和理解社交线索和背景
- 关系管理:管理和培养长期关系
创造力和想象力
- 创意生成:产生新的创新想法
- 艺术创作:创作音乐、视觉艺术和文学等原创艺术作品
- 富有想象力的思维:设想并表达超越当前现实的新可能性和场景
正在做
描述:涉及代理与环境交互并执行任务的能力。它包括数字和物理动作。此类能力还涵盖通信和交互,使代理能够与用户和其他系统进行有意义的互动。细粒度能力的示例包括:
- 数字行动执行:执行特定的数字行动,包括输出生成、自动化、解决问题的行动、决策实施和响应行动。
- 身体动作执行:计划、启动和调整动作,将感觉信息与运动动作相结合,抓取和处理物体,以及学习和适应新的运动技能。
- 人际交流与互动:与用户进行有意义的对话,处理多种语言,并保持对话的上下文。
- 代理和系统通信与交互:有效地与其他AI代理和系统进行通信和协调,使用协议和接口跨平台交换信息、同步动作并维护交互上下文。
适应
描述:指允许代理根据新信息、经验和反馈调整和改进其行为、过程和情绪反应的能力。需要明确的是,我们在这里关注的是代理在运行状态下的适应和学习能力,而不是在实现其基础能力的背景下发生的学习。在我们的框架中,这将是工具和技术的领域。细粒度功能的示例包括:
学习
- 认知学习:通过认知过程获取知识
- 模仿学习:通过观察和复制动作来获得新技能和行为
- 体验式学习:通过经验和反思进行学习
适应与进化
- 行为适应:根据反馈或环境变化调整行为
- 认知适应:根据新信息修改认知过程
- 情绪适应:根据经验和环境调整情绪反应
- 运动适应:通过练习和反馈调整运动技能
- 社会适应:根据社交线索和互动改变社交行为
- 进化:随着时间的推移,行为和认知过程的长期变化和改善
由于本文旨在写成一篇文章而不是一本书,因此我们不会详细讨论这些示例粒度级别的功能。尽管我希望相信这是详尽无遗的,但这充其量只是一个良好的开端。通过迭代和反馈,我们肯定会对其进行修改、改进,并朝着可能适合更广泛采用的稳定框架迈进。
现在让我们看一些例子来说明该框架的实际应用以及它在代理工程环境中的价值。
实践中的人工智能代理能力框架
AI 代理能力框架的实际应用涉及利用其植根于认知和行为科学的结构化概念来促进设计思维过程。鉴于我们对代理所需能力的设想和表达方式存在多样性,该框架有助于建立共同点,促进能力设计和工程的一致性和全面性。随着人们对 AI 代理能力复杂程度的期望不断增长,这将特别有价值。让我们来看一个例子:
人工智能客服代理
让我们考虑一个 AI 代理,其工作是提供客户支持和个性化产品推荐。借助该框架,我们可以实现保真度更高的工作和场景描述,从而描绘出更生动的画面。
工作:提供卓越且富有同理心的客户支持和产品推荐,同时主动预测销售趋势并结合细粒度的上下文元素实现高度个性化的互动。
场景:这是一个繁忙的在线客户服务环境,我们的 AI 代理不仅要解决客户查询和提出产品建议,还要通过预测需求和个性化互动来增强整体客户体验。这项工作涉及广泛的行动和能力。几年前,构建其中一些能力是完全不可能的。能否使用我们的 AI 代理能力框架有效地表达这项工作的能力,以确定其可行性?让我们仔细看看,同时记住下面的概述并非旨在全面:
需要采取的措施:
- 理解并解释客户的疑问。
- 提供准确且有用的答复。
- 在适当的时候升级问题。
- 根据客户互动预测销售趋势。
- 提出产品推荐。
所需能力:
- 洞察力
- 文本数据处理:识别和理解书面客户查询,包括复杂的句子和俚语。
- 听觉处理:即使在嘈杂的环境中也能转录和理解口头查询。
- 视觉处理:在视频支持会话期间解释视觉提示和肢体语言。
2.认知
情境理解和意识:
- 时间意识:识别季节趋势和高峰期。
- 位置感知:了解地理位置数据。
- 个人背景意识:了解个人客户、他们的历史和偏好。
记忆:
- 短期记忆:保留最近的互动以维持背景。
- 长期记忆:利用过去的互动来获取背景。
推理与分析:
- 概率推理:识别客户互动中的模式来预测未来的行为。
- 演绎逻辑:应用逻辑框架来解决问题。
- 行为分析:了解和解释客户行为模式。
- 趋势分析:了解当前的市场趋势和季节性数据。
知识运用与应用
- 语义知识:应用一般的世界知识来理解和响应查询。
- 情景知识:利用具体事件和过去的经历来获得相关支持。
- 陈述性知识:获取事实信息以获得准确的回应。
社交和情感智力
- 情绪识别:检测并解释客户情绪。
- 社交互动:以适合社交的方式与客户互动。
- 心智理论:推断客户需求并预先提供解决方案。
- 关系管理:与客户建立融洽关系以培养忠诚度。
创造力和想象力
- 富有想象力的思维:设想超越当前问题的新可能性。
行动
数字互动:
- 输出生成:产生快速、准确且符合上下文的响应。
- 产品推荐生成:根据客户偏好和其他相关分析推荐产品。
人际沟通与互动:
- 对话连续性:在多次互动中保持上下文。
代理和系统通信:
- 代理间协调:与其他 AI 系统进行通信以同步行动并分享见解。
适应
学习:
- 体验式学习:不断提高对客户行为的理解。
适应:
- 行为适应:根据反馈调整互动方式。
- 认知适应:用新信息更新知识。
- 情绪适应:修改情绪反应。
其中一些见解可能有点令人惊讶。例如,AI 代理是否应该具备关系管理能力?或者,AI 代理如何以伪身形式出现在屏幕上,能够观察和响应通过视频“观察”的全新数据点阵列?当然,存在大量隐私问题和问题需要解决,但我们不应完全排除这一概念。
通过技术和技巧创造能力
虽然本文不会重点介绍如何评估实现这些功能的技术和技巧,但我们应该解决在完成上述练习后自然出现的问题。法学硕士不是为我们提供了实现这些功能的大部分现成工具吗?
尽管 LLM 确实使最先进的技术突飞猛进,但答案是否定的。在推理和分析能力等情况下,尽管 LLM 可以非常令人印象深刻地模拟看似推理或分析的能力,但它与人类的此类能力相差甚远。简而言之,LLM 提供了一种并非完全可靠但功能强大的捷径来实现其中许多功能。它们代表了智能和交互技术中非常重要的进化步骤,其前所未有的采用有助于解释为什么人们对通用人工智能 (AGI) 的想法如此兴奋。虽然它的实际含义的定义是争论的主题,但如果实现,它可能是实现上述许多认知/行为能力的首选技术解决方案。
结论
我希望您发现 AI 代理能力工程框架是一种定义 AI 代理能力的富有洞察力的方法。通过整合认知和行为科学的概念,该框架旨在指导 AI 代理执行复杂任务所需的能力的开发。该框架相对密集,并且肯定会随着时间的推移而发展。此阶段的关键点是以感知、思考、行动和适应为中心的心理模型。这四个高级概念本身为有效地组织和开发代理能力提供了非常坚实的基础。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/3272