Claude 3.5：编程领域逆袭，反杀OpenAI！

Claude 3.5 编程收入暴增 10 倍的惊人表现

在当今竞争激烈的人工智能领域，Claude 3.5 的表现可谓是一骑绝尘，令人瞩目不已。就在过去的短短 3 个月里，它在编程方面的收入居然实现了暴增 10 倍的惊人成绩，这一突出表现无疑在整个编程领域掀起了一阵巨浪。

据 Anthropic 官方消息，全新升级的 Claude 3.5 Sonnet 大语言模型正式推出后，其性能全面提升，尤其在编程方面表现格外显著。它推出的突破性新功能 —— 计算机使用能力（computer use），更是让开发者可以指导 Claude 像人类一样使用电脑，诸如查看屏幕、移动鼠标、点击按钮、输入文字等操作都不在话下。而且，升级版的 Claude 3.5 Sonnet 在多项基准测试中的成绩十分亮眼，例如 SWE-bench 验证得分从 33.4% 提高到 49.0%，是业内任何机型的最佳得分；在零售领域，TAU-bench 得分从 62.6% 提高到 69.2%，在航空领域从 36.0% 提高到 46.0%，GPQA 和 MMLU Pro 分数也分别增至 65% 和 78%，优于 Gemini 1.5 Pro，甚至在 SWE 基准验证中的得分高于所有可用模型，这其中还包括了 OpenAI o1-preview 等推理模型和专门的代理系统，大有在编程界 “横着走” 的态势。

曾经，AI 编程领域是 OpenAI 的优势所在，也是数百万用户订阅 ChatGPT 的重要原因之一。然而，今年 7 月，曾获得 OpenAI 800 万美元投资的明星初创 Cursor，毅然将其 AI 编程助手的默认模型从 GPT 换成了 Claude，Cursor 的联合创始人 Aman Sanger 更是在 Lex Fridman 10 月的播客上对 Anthropic 大加称赞，直言得益于对用户需求更深入的理解，最新版的 Claude 3.5 Sonnet 可以说是当前 “最佳” 的编程工具。无独有偶，OpenAI 自己在初秋的内部基准测试中也发现，自家模型在自动编程任务上已经被 Anthropic 远远甩在了身后。

诸多因素交织，使得 Anthropic 在编程领域的成功迅速转化为了可观的商业成果，也就是这近 3 个月来编程收入年化 10 倍的增长奇迹。而这一成绩，也给整个市场带来了不小的震动，让大家看到了 AI 编程领域格局正在悄然发生变化，Claude 3.5 已然成为了不可忽视的强劲力量，后续也必将引发各方更多的关注与应对举措。

从 Cursor 倒戈看 Claude 3.5 的优势

Cursor 转投 Claude 3.5 怀抱

曾几何时，AI 编程领域可是 OpenAI 的优势所在，也是数百万用户订阅 ChatGPT 的重要原因之一呀。然而，就在今年 7 月，出现了一件让业界颇为震动的事儿，曾获得 OpenAI 800 万美元投资的明星初创 Cursor，毅然决然地将其 AI 编程助手的默认模型从 GPT 换成了 Claude。要知道，Cursor 背后的公司 Anysphere 在成立初期可是拿了 OpenAI 不少投资，按常理来说应该是坚定站在 OpenAI 这一阵营的，可如今这一转变，着实标志着 OpenAI 在代码生成这个重要场景上，暂时失去了往日的统治力呢。

不仅如此呀，Cursor 的联合创始人 Aman Sanger 更是在 Lex Fridman 10 月的播客上对 Anthropic 大加称赞，直言得益于对用户需求更深入的理解，最新版的 Claude 3.5 Sonnet 可以说是当前 “最佳” 的编程工具。Cursor 之所以能在开发者群体中越来越火，甚至不少程序员朋友都把 GitHub Copilot 付费停了，转投 Cursor，很大一部分原因就是能在其中使用 Claude 3.5 Sonnet 这个强大的模型呀。而且 Cursor 自身在产品设计上也有诸多亮点，像今年 5 月推出的 “光标位置预测” 功能就广受好评，修改好一处代码后，AI 能自动预测下一个想要修改的地方，省去手动导航的麻烦；还有多行编辑功能，AI 可以一次性建议对多行代码同时修改，节省更多时间，在格式调整等方面特别实用，这两个功能还能结合起来发挥更大的作用呢。另外，正在测试的试验性 Composer 功能，能让 AI 跨文件编辑，同时修改一个项目里相关的所有文件，改变了很多人的工作流程，虽然官方还没怎么宣传，但已经在程序员群体中口口相传了。

性能优势凸显

其实，Claude 3.5 在自动编程任务等方面的优势可不仅仅是靠别人的称赞体现出来的，实打实的测试成绩更是有力的证明。在诸多权威的基准测试中，Claude 3.5 Sonnet 都展现出了亮眼的表现。比如说在 SWE-bench 验证中，它的得分从 33.4% 提高到了 49.0%，这个成绩可是业内任何机型的最佳得分呢，就连在零售领域的 TAU-bench 得分也从 62.6% 提高到 69.2%，在航空领域从 36.0% 提高到 46.0%，GPQA 和 MMLU Pro 分数也分别增至 65% 和 78%，优于 Gemini 1.5 Pro，甚至在 SWE 基准验证中的得分高于所有可用模型，这里面还包括了 OpenAI o1-preview 等推理模型和专门的代理系统呀。

而且呀，Claude 3.5 Sonnet 还开创性地引入了 “计算机使用” 功能，也就是让 AI 可以像人类一样操作计算机，查看屏幕、移动鼠标、点击按钮、输入文字这些都不在话下。在 OSWorld 基准测试平台上，Claude 3.5 Sonnet 在仅使用截图的测试类别中得分 14.9%，远超第二名的 7.8%；在允许使用更多步骤完成任务时，得分能达到 22.0%，虽然暂时不及人类水平，但在 AI 领域这已经是非常大的突破了。另外在图表推理能力方面，根据陈丹琦团队提出的新测试基准 CharXiv 来评估，Claude 3.5 Sonnet 的表现也比 GPT-4o 高出了 27.8% 呢，尽管在推理类问题上所有模型相对人类来说都还有差距，但 Claude 3.5 Sonnet 已经是模型当中表现最好的了呀。种种数据和表现都充分彰显了 Claude 3.5 在编程方面相较于 OpenAI 模型的性能优势，也难怪它能在编程领域迅速崛起，抢走 Cursor，还让 OpenAI 都紧张起来了呢。

Anthropic 与 OpenAI 的恩怨纠葛

理念分歧致团队分裂

Anthropic 与 OpenAI 之间的故事，那可真是说来话长呀，充满了各种纠葛与分歧。Anthropic 的 7 位联合创始人曾经都在 OpenAI 任职呢，像达里奥・阿莫迪（Dario Amodei）、丹妮拉・阿莫迪（Daniela Amodei）等，他们在 OpenAI 期间积累了深厚的技术经验，参与了像 GPT-2、GPT-3 这些具有开创性的模型开发工作，也在深度学习、自然语言处理以及 AI 安全研究等方面颇有建树。

不过呢，随着对人工智能发展的探索逐渐深入，双方在 AI 安全理念等方面出现了明显的分歧。在 OpenAI 这边，可能更侧重于追求技术的快速发展以及商业化的推进，希望能够尽快将先进的 AI 技术推向市场，让其产生更大的经济效益和影响力。但 Anthropic 的这几位创始人却有着不一样的想法，他们更强调要构建可解释、安全可靠的 AI 系统，以人为中心，担心 AI 如果不受严格的安全把控，可能会出现一些危及人类生命或者造成重大失误的情况，比如被用于研发生物武器或者实施核打击这类极端危险的行为。

这种理念上的差异就像是一颗种子，在日常的工作和项目开展过程中不断地生根发芽，矛盾也在一点点积累。比如说在一些项目的领导权分配以及安全问题的把控上，双方就有着不同的看法和争执。2019 年初的时候，就有这么一件事儿，当时格雷格・布罗克曼（Greg Brockman）正主导开发一个能够玩在线对战游戏《Dota 2》的 AI 项目，后来他希望加入达里奥・阿莫迪负责的语言生成 GPT 模型团队，毕竟这个模型可是后来 ChatGPT 等爆款产品的基础技术呀，可没想到的是，阿莫迪兄妹直接否决了他加入项目的请求，理由是觉得格雷格素有难以合作的名声，经常在未经沟通的情况下随意修改代码呢。从这之后呀，双方之间的裂痕就越来越深了，矛盾也不断升级。

最终，在 2020 年底，Anthropic 的这 7 位联合创始人实在是觉得自己的理念在 OpenAI 难以实现，于是选择离开，自立门户，创立了 Anthropic，决心按照自己的想法去打造更符合他们安全理念的人工智能产品，这也就为两家公司后续在市场上的竞争和恩怨埋下了伏笔呢。

竞争中的你来我往

在 AI 这个竞争激烈的大舞台上，Anthropic 在市场竞争中可是越发大胆起来了，不断地出招，让 OpenAI 也不得不严阵以待呀。

就拿广告投放来说吧，在 2024 年 10 月，当时包括 OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在内的多位高管离开 OpenAI，Anthropic 瞅准这个时机，在旧金山国际机场投放了 Claude AI 的广告，还暗讽了一把，打出了 “这是一个没有戏剧性的选择” 这样的广告语，这波操作可以说是直接向 OpenAI 发起了挑衅，吸引了不少人的目光呢。

而且呀，Anthropic 在推出创新性功能方面也是相当果断。同样是在 10 月，尽管他们在博客中承认存在潜在的网络安全风险，但还是毅然推出了一项炸裂的功能 ——“computer use”（计算机使用），这个功能可不得了，让 Claude 模型能够像人类一样操作计算机，可以查看屏幕、移动光标、点击按钮、输入文本等等，甚至还能自动化执行多个步骤的复杂任务，像填写在线表格、搜索数据、提交报告这些都不在话下，这对于开发者来说那是相当实用呀。不过呢，Anthropic 的这一决定在 OpenAI 内部引发了嘲讽，OpenAI 的领导层觉得这与 Anthropic 大肆宣扬的 AI 安全理念背道而驰呢，毕竟这个功能可能带来网络攻击的风险呀。

面对 Anthropic 的这些举动，OpenAI 自然也不会坐视不理啦。OpenAI 本来就在 AI 编程方面有着自己的优势，曾经也是靠着这个吸引了数百万用户订阅 ChatGPT 呢。但眼瞧着 Anthropic 在编程领域的表现越来越突出，尤其是自家模型在自动编程任务上已经被 Anthropic 甩在了身后，OpenAI 也开始紧急对自家模型的编程能力进行提升。比如开发一些新的工具或者功能，让在主要代码编辑程序（如微软的 Visual Studio Code）中使用 OpenAI 的人工智能进行编码任务变得更加容易，还尝试去承担更大的软件开发任务，像开发一款可以处理可能需要人类花费数小时或数天的软件工程任务，并根据客户的指示自动编写和执行复杂应用程序代码的产品等等，就是希望能在这场激烈的竞争中扳回一城呀。

总之，Anthropic 和 OpenAI 在市场上你来我往，互不相让，都想在 AI 这个大领域里占据更多的优势，赢得更多用户的青睐呢，后续它们之间又会擦出怎样的火花，还真是让人拭目以待呀。

Claude 3.5 与 OpenAI 的实力对比

编程能力比拼

在编程能力的比拼上，Claude 3.5 和 OpenAI 可以说是各有千秋，但从近期表现来看，Claude 3.5 展现出了强劲的势头，逐渐占据上风。

先从基准测试成绩方面来说，Claude 3.5 Sonnet 在多项关键测试中表现亮眼。例如在 SWE-bench 验证中，得分从 33.4% 提高到了 49.0%，拿下业内任何机型的最佳得分。在零售领域的 TAU-bench 得分从 62.6% 攀升至 69.2%，航空领域也从 36.0% 提升到 46.0%，GPQA 和 MMLU Pro 分数更是分别增至 65% 和 78%，优于 Gemini 1.5 Pro，而且在 SWE 基准验证中的得分高于所有可用模型，这其中包含了 OpenAI o1-preview 等推理模型以及专门的代理系统。

从实际应用场景角度来看，Claude 3.5 有着出色的发挥。在代码编写方面，有网友利用 Claude 3.5 Sonnet 编写曼卡拉数学游戏，仅提供游戏说明的一张屏幕截图，Claude 3.5 Sonnet 在短短 25 秒内就完成了编写整个游戏、提供游戏规则以及生成可测试的预览等一系列工作，并且在发现代码错误后，还能在几秒钟内完成修复。

再看 Claude 3.5 Sonnet 创新性的 “计算机使用”（computer use）功能，这让它能像人类一样操作计算机，无论是查看屏幕、移动光标、点击按钮，还是输入文字等都可以实现，甚至还能自动化执行多个步骤的复杂任务，像填写在线表格、搜索数据、提交报告这些实际工作场景中的操作都不在话下。比如开发者可以让它帮忙填写一份来自蚂蚁设备公司的供应商请求表，即便所需数据散布在电脑的各个角落，Claude 3.5 Sonnet 也能跨应用进行搜索，切换到 CRM 系统中，滚动页面，查找填表所需的所有信息，然后顺利提交表格。

而 OpenAI 在编程领域曾经一直占据优势，也是吸引数百万用户订阅 ChatGPT 的重要因素之一，不过在最近的内部基准测试中，其自家模型在自动编程任务上已经被 Anthropic 远远甩在了身后。当然，OpenAI 也在积极应对，例如开发一些新的工具或者功能，让在主要代码编辑程序（如微软的 Visual Studio Code）中使用 OpenAI 的人工智能进行编码任务变得更加容易，试图通过这样的方式来提升自身在编程方面的竞争力。

总的来说，Claude 3.5 在编程能力上凭借着出色的基准测试成绩以及创新实用的功能，在与 OpenAI 的比拼中暂时取得了领先优势，不过 OpenAI 的底蕴和实力也不容小觑，后续双方在编程能力方面的竞争态势依旧值得关注。

商业及财务状况对照

Anthropic 和 OpenAI 在商业及财务状况方面存在着较为明显的差异，这些差异也从侧面反映出了二者在市场上的不同地位和发展态势。

从营收情况来看，OpenAI 有着显著的优势。据相关机构预测及报道，截止到 2024 年 8 月 OpenAI 的年化收入约为 36 亿美元，2023 年底的收入只有 16 亿美元，而不少机构预估 2024 全年 OpenAI 的总收入将超过 50 亿美元，同比 2023 年增长 225% 左右，2025 年收入更是有望达到 116 亿美元。其收入分布上，ChatGPT 的订阅收入为 27 亿美元，占比超过 70%，同比增长 285%，另外 API 收入达 10 亿美元（约占 27%），同比增长超过 200%。反观 Anthropic，预计到 2024 年底其年收入将达到 10 亿美元大关，2023 年底这一数字约为 1 亿美元，对比之下 Anthropic 的收入仅为 OpenAI 的 1/5 左右，并且其收入主要来自 API 业务，尤其是通过亚马逊等第三方 API，这部分占比在 70% 左右，直接调用 API 的收入占比约为 15%，C 端产品 Claude 占比只有 15%，核心产品 Claude 贡献收入远低于 ChatGPT。

在融资额和估值方面，OpenAI 同样领先。OpenAI 累计筹集 2000 亿美元资金，在 2024 年 9 月末完成最新一轮 66 亿美元的融资后，公司整体估值达到了 1570 亿美元。而 Anthropic 的融资额为 110 亿美元，目前正在以 400 亿美元估值进行新一轮融资，与 OpenAI 相比差距较大。

再看与云供应商的分成比例，OpenAI 与云供应商微软的分成比例，要比 Anthropic 与亚马逊之间的更低，这也使得 OpenAI 在成本控制等财务方面更具优势。不过，由于开发和运营 AI 技术的成本都极其高昂，OpenAI 和 Anthropic 在 2024 年都在大规模烧钱，规模均达数十亿美元。OpenAI 为了降低对外部供应商的依赖度，还计划开发自己的数据中心芯片和其他硬件设施，这意味着其在可预见的未来仍需持续寻求资金支持；Anthropic 则需要不断拓展业务，提升自身盈利能力，以应对高额的研发等成本投入。

综上所述，虽然目前 Anthropic 在编程领域势头很猛，收入也有年化 10 倍的增长奇迹，但从整体商业及财务状况来看，OpenAI 依旧有着较大的领先优势，不过市场瞬息万变，Anthropic 后续能否凭借技术和产品优势进一步缩小差距，值得拭目以待。

Claude 3.5 未来发展展望

在当前人工智能领域竞争白热化的态势下，Claude 3.5 凭借其在编程方面的卓越表现，已然站在了聚光灯下，而展望其未来发展，既充满了机遇，也面临着诸多挑战。

从市场份额拓展的角度来看，Claude 3.5 有着极大的上升空间。过去 3 个月编程收入年化 10 倍的增长奇迹，已经充分证明了它在市场中强大的竞争力和吸引力。随着越来越多开发者认可其为 “最佳” 编程工具，它有望进一步蚕食其他同类产品的市场份额。像之前获得 OpenAI 投资的 Cursor 转投 Claude 3.5 怀抱，就是一个强烈的信号，其他类似的编程辅助工具也可能面临用户流失的情况，Claude 3.5 极有可能吸引更多原本使用其他产品的开发者和企业用户，在编程领域的市场占有率持续攀升。

在技术更新迭代方面，Anthropic 必然会乘胜追击，持续投入研发，让 Claude 3.5 不断进化。例如其 “计算机使用” 功能目前虽处于实验阶段，还存在诸如执行任务准确率不够、操作不够流畅以及速度较慢等问题，但随着技术的打磨完善，它未来有望实现更加复杂和精准的计算机操作，甚至能像人类一样自如应对各种办公软件、开发环境等不同场景下的任务，成为真正的全能型编程助手。而且，参考其之前不断在基准测试中刷新成绩的发展轨迹，后续在编程能力上，比如代码生成的质量、对不同编程语言和框架的适配性、处理复杂编程逻辑的效率等方面，都可能会有新的突破。

不过，Claude 3.5 的发展之路也并非一帆风顺。一方面，OpenAI 作为行业内的老牌劲旅，尽管目前在编程方面暂时落于下风，但其实力不容小觑，必然会加大研发力度，推出更具竞争力的功能和模型，试图夺回失地，这会给 Claude 3.5 带来不小的竞争压力。另一方面，行业内其他新兴的 AI 编程产品也在不断涌现，它们可能会带来一些创新性的思路和功能，吸引一部分用户，瓜分市场份额。同时，随着 Claude 3.5 应用场景的不断拓展，对其安全性、可靠性的要求也会越来越高，如何在功能升级的同时确保不出现危及用户数据安全、引发伦理争议等问题，也是 Anthropic 需要重点考量的。

RA/SD 衍生者AI训练营。发布者：風之旋律，转载请注明出处：https://www.shxcj.com/archives/7924

Claude 3.5：编程领域逆袭，反杀OpenAI！

Claude 3.5 编程收入暴增 10 倍的惊人表现