GinoGino

Anthropic 发布 Claude 3.7 Sonnet:性能与编程能力双重飞跃

14 分钟阅读人工智能

昨天,人工智能领域的前沿公司 Anthropic 推出了他们最新的 AI 模型 -- Claude 3.7 Sonnet。这不仅是 Claude 模型家族的又一次重大升级,更是在 AI 辅助编程领域树立了一个新的标杆。这款模型不仅拥有强大的通用智能,更在编程方面实现了质的飞跃,能够像一位经验丰富的程序员一样,帮助你编写代码、调试程序、甚至独立完成复杂的开发任务。本文将带你深入了解 Claude 3.7 Sonnet 的强大功能、实际表现,以及它将如何改变我们编写代码的方式。

不只是快,更会"思考":Claude 3.7 Sonnet 的混合推理引擎

Claude 3.7 Sonnet 最厉害的地方,在于它拥有一个"混合推理引擎"。你可以把它想象成一个既能快速反应,又能深入思考的大脑。这种独特的设计,让它在处理各种任务时都能游刃有余。

两种思考模式,灵活应对各种任务

混合推理模型

传统的 AI 模型,通常只有一种"思考"方式。要么像"急性子",对简单的问题或指令能立刻给出答案,但在面对复杂问题时就显得力不从心;要么像"慢性子",能深入思考复杂问题,但反应速度又太慢。Claude 3.7 Sonnet 打破了这种局限,它有两种思考模式:

  • 快速响应模式: 就像我们平时聊天一样,对于一些简单的问题,比如"今天天气怎么样?"或者"帮我写一句生日祝福",它能立刻给出答案。
  • 扩展思考模式: 当面对复杂的难题,比如"请解释一下量子力学的基本原理",或者"帮我设计一个电商网站的数据库结构",它会像一位经验丰富的专家一样,进行更长时间、更深入、更全面的思考,一步步推理,最终给出高质量的答案。这种模式在处理数学、物理、编程等需要逻辑推理的任务时,效果尤其显著。

混合推理模型

更棒的是,如果你是开发者,通过 API 使用 Claude 3.7 Sonnet,你还能精确控制它"思考"的时间。这就像给 AI 装上了一个"思考加速器",你可以根据任务的难易程度,调整它的思考速度。比如,对于一个简单的代码补全任务,你可以让它快速响应;而对于一个复杂的代码重构任务,你可以让它多思考一会儿,以获得更优的方案。这种灵活的控制方式,既保证了工作效率,又保证了结果的质量。

案例:蒙提霍尔问题

为了更直观地展示扩展思考模式的威力,Anthropic 举了一个经典的概率论问题 -- 蒙提霍尔问题(Monty Hall problem)作为例子。在这个问题中,Claude 3.7 Sonnet 能够在开启扩展思考模式后,详细地列出每一步的推理过程(思维链,Chain-of-Thought),最终得出正确的答案,整个过程仅需 52 秒。

蒙提霍尔问题

不只追求高分,更注重实用

Anthropic 在开发 Claude 3.7 Sonnet 时,有一个明确的目标:不仅仅在各种测试中拿到高分,更要让模型在实际工作中发挥作用,真正帮助到用户。他们希望 Claude 3.7 Sonnet 能够成为开发者、研究人员、以及各行各业人士的得力助手。

正如 Anthropic 官方所说:"我们更关注的是模型在真实世界任务中的表现,而不是在一些竞赛题目上的得分。" 这种务实的设计理念,使得 Claude 3.7 Sonnet 在处理实际问题时,表现得更加出色。

更友好的交互体验

在与 AI 模型交互的过程中,我们有时会遇到模型"拒绝回答"的情况。这可能是因为问题太复杂、太模糊,或者模型认为问题涉及敏感信息。与之前的版本相比,Claude 3.7 Sonnet 在这方面做了很大的改进。它的"拒绝率"降低了 45%,同时保持了对安全性的高度重视。这意味着当你向它提问时,它更有可能给你一个有用的答案,而不是简单地说"我不知道"或"我不能回答这个问题"。这种改进,大大提升了用户的使用体验。

价格和获取方式

Claude 3.7 Sonnet 的定价与前代 Sonnet 模型保持一致,非常具有竞争力:

  • 输入:每百万 tokens 3 美元
  • 输出:每百万 tokens 15 美元(这个价格包含了模型"思考"所消耗的 tokens)

目前,你可以在所有 Claude 计划中使用 Claude 3.7 Sonnet,无论你是免费用户,还是 Pro、Team 或 Enterprise 版本的付费用户,都可以体验到这款新模型的强大功能。此外,你还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 这些平台来使用 Claude 3.7 Sonnet。不过,需要注意的是,"扩展思考模式"目前只在付费计划中提供。

全面测试:Claude 3.7 Sonnet 的实力有多强?

为了全面评估 Claude 3.7 Sonnet 的能力,Anthropic 和其他独立机构对它进行了各种各样的测试。测试结果表明,Claude 3.7 Sonnet 在多个领域都达到了业界领先水平,展现出强大的综合实力。

基准测试:多项能力名列前茅

下面这张表格,详细列出了 Claude 3.7 Sonnet 在一些关键基准测试中的表现:

测试项目描述Claude 3.7 Sonnet 表现
研究生级别推理 (GPQA Diamond)考察模型在研究生级别难题上的推理能力,题目通常涉及多个学科的知识。Claude 3.7 Sonnet 在此项测试中表现出色,尤其在启用扩展思考模式后,展现出强大的逻辑推理和知识运用能力。
Agentic 编码 (SWE-bench Verified)评估模型解决 GitHub 上真实软件问题的能力。Claude 3.7 Sonnet 在此项测试中 大幅领先 于其他模型,证明了其在解决实际软件问题方面的卓越能力。
Agentic 工具使用 (TAU-bench) - Retail评估 AI 代理在复杂任务中与用户和工具交互的能力(零售场景)。Claude 3.7 Sonnet 在此项测试中表现最佳,展现出在复杂交互任务中的优势。
Agentic 工具使用 (TAU-bench) - Airline评估 AI 代理在复杂任务中与用户和工具交互的能力(航空场景)。Claude 3.7 Sonnet 在此项测试中同样表现最佳,进一步证明了其在复杂交互任务中的领先地位。
多语言问答 (MMMLU)评估模型在不同语言环境下的理解和问答能力。Claude 3.7 Sonnet 在此项测试中表现优秀,展现出良好的多语言理解能力。
视觉推理 (MMMU)考察模型理解和分析图片的能力。Claude 3.7 Sonnet 在此项测试中表现良好,具备一定的视觉理解能力。
指令跟随 (IFEval)评估模型理解和执行复杂指令的能力。Claude 3.7 Sonnet 在此项测试中表现出色,能够准确理解和执行复杂指令。
数学问题解决 (MATH 500)考察模型解决各种数学问题的能力。Claude 3.7 Sonnet 在此项测试中表现良好.
高中数学竞赛 (AIME 2024)考察模型在高中数学竞赛中的表现。Claude 3.7 Sonnet 在此项测试中表现尚可.

基准测试对比图

从这些测试结果可以看出,Claude 3.7 Sonnet 不仅在传统的文本理解、推理、问答等方面表现出色,在视觉理解、指令跟随等方面也达到了很高的水平。更重要的是,它在专门针对编程能力的测试中取得了最佳成绩,这表明 Claude 3.7 Sonnet 在 AI 辅助编程方面具有巨大的潜力。

智能体交互能力测试

Agentic Tool Use 测试

Claude 3.7 Sonnet 在 TAU-bench 的 Agentic Tool Use 测试中刷新 SOTA, 这表明它在复杂交互任务中具有显著优势。

更安全、更可靠

Anthropic 非常重视 AI 模型的安全性。他们深知,一个强大的 AI 模型,如果不能保证安全可靠,就可能带来潜在的风险。因此,他们在 Claude 3.7 Sonnet 的开发过程中,投入了大量精力来提升模型的安全性和可靠性。

他们对 Claude 3.7 Sonnet 进行了大量的测试,包括内部测试和外部专家的评估,以确保模型不会产生有害、歧视性或误导性的内容。此外,他们还特别关注模型在面对"提示注入"等新型攻击时的表现,并采取了多种措施来增强模型的防御能力。

Anthropic 还发布了一份详细的 "系统卡"(system card),公开了 Claude 3.7 Sonnet 的安全评估结果和相关技术细节。这种透明的做法,有助于提升公众对 AI 模型的信任度。

Claude 3.7 Sonnet:AI 编程能力的革新

如果说 Claude 3.7 Sonnet 在通用智能方面已经足够出色,那么它在编程方面的能力,则可以用"惊艳"来形容。它不仅能够帮助开发者更快、更好地编写代码,还能像一位经验丰富的程序员一样,独立思考、自主决策,完成复杂的编程任务。

Agentic 编码:AI 编程的未来

要理解 Claude 3.7 Sonnet 在编程方面的优势,首先需要了解一个概念 -- Agentic 编码。

传统的 AI 编程工具,比如代码补全、代码生成,主要起到的是"助手"的作用。它们可以帮你写一些简单的代码片段,或者根据你的注释自动生成代码,但它们并不能独立完成一个完整的编程项目。

而 Agentic 编码则不同。它赋予了 AI 模型更强的自主性,让 AI 能够像一个真正的程序员一样,理解项目需求、设计代码结构、编写代码、调试程序、甚至与其他工具协同工作,最终独立完成一个完整的项目。

Claude 3.7 Sonnet 在 Agentic 编码方面表现非常出色,这主要得益于以下两个方面:

  • 混合推理引擎: 前面提到,Claude 3.7 Sonnet 拥有一个"混合推理引擎",这使得它既能快速响应简单的编程指令,又能进行深入的思考,解决复杂的编程难题。
  • 实际应用导向: Anthropic 在开发 Claude 3.7 Sonnet 时,更注重模型在实际编程任务中的表现,而不是在一些"玩具"代码上的得分。

权威测试:证明 Claude 3.7 Sonnet 的编程实力

为了客观评估 AI 模型在编程方面的能力,业界有一些权威的测试,其中最具代表性的就是 SWE-bench Verified 和 TAU-bench。

  • SWE-bench Verified: 这项测试会从 GitHub 上选取一些真实的软件问题,让 AI 模型尝试去解决。这些问题通常涉及多个代码文件,需要模型对整个项目有较好的理解,才能给出正确的解决方案。
  • TAU-bench: 这项测试更加贴近实际的软件开发场景。它会模拟一个复杂的环境,让 AI 模型像人类开发者一样,与用户进行交互,使用各种工具(比如代码编辑器、调试器、版本控制系统等),来完成一个完整的软件开发任务。

Claude 3.7 Sonnet 在这两项测试中都取得了目前最好的成绩,这充分证明了它在 Agentic 编码方面的领先地位。

Agentic Coding Evaluation

上图展示了 Claude 3.7 Sonnet 与其他 AI 模型在 Agentic Coding Evaluation 测试中的对比结果。可以看到,Claude 3.7 Sonnet 的得分明显高于其他模型,包括 Anthropic 自家的 Claude 3.5 Sonnet,以及 OpenAI 的模型。

行业大咖点赞:Claude 3.7 Sonnet 备受好评

Claude 3.7 Sonnet 的强大编程能力,不仅得到了权威测试的验证,还获得了众多开发者和企业的一致好评。

  • Cognition Labs: 这家公司专注于 AI 软件开发,他们开发了一款名为 Devin 的 AI 程序员工具。Cognition Labs 将 Claude 3.7 Sonnet 集成到了 Devin 中,并表示:"在我们的测试中,Devin 与 Sonnet 3.7 能够自主实现一个中等规模的跨前端和后端的计费功能,这在以前是不可能实现的。Sonnet 3.7 是我们见过的在调试、代码库搜索和 Agentic 规划方面表现最好的模型。"

Devin

  • Cursor: Cursor 是一款广受欢迎的 AI 编程工具,许多开发者都在使用。Cursor 官方宣布,他们已经正式支持 Claude 3.7 Sonnet,并表示:"我们对 Sonnet 3.7 在实际 Agentic 任务中的编码能力印象非常深刻。它似乎是目前最先进的 AI 编程模型。"

  • bolt.new: 这是一家提供软件开发服务的公司。他们宣布将 Claude 3.7 Sonnet 应用于其关键的开发流程中。bolt.new 的团队表示:"在我们的测试中,Claude 3.7 Sonnet 在各个方面都比之前的版本有了显著的改进。我们对它的动态推理能力尤其感兴趣,这为我们的开发工作带来了新的可能性。"

  • Lex Fridman: Lex Fridman 是麻省理工学院的 AI 研究员,也是一位知名的科技博主。他表示:"对我来说,Sonnet 3.7 是目前为止在实际编程中用过的最好的模型。我在 Cursor 中切换到 Sonnet 3.7 后,感觉编码效率有了很大的提升。"

Claude Code:AI 编程的未来

除了 Claude 3.7 Sonnet 模型,Anthropic 还推出了一款名为 Claude Code 的工具。这是一款专门为开发者设计的 AI 编程助手,它可以与你的代码编辑器无缝集成,让你在编写代码的过程中,随时获得 AI 的帮助。值得一提的是,Claude Code 不仅仅是一个简单的代码补全工具,而是一个真正理解编程的 AI 助手。

Claude Code

Claude Code 具有以下特点:

  • Agentic 编码: 就像前面介绍的,Claude Code 具备 Agentic 编码能力,能够像一位真正的程序员一样,独立完成复杂的编程任务。
  • 终端集成: Claude Code 直接在你的终端中运行,无需额外的服务器或复杂的设置。在早期测试中,它能够一次性完成通常需要手动工作 45 分钟以上的任务,显著减少了开发时间和工作量。
  • 代码库理解: Claude Code 能够理解整个代码库的上下文,而不仅仅是单个文件或代码片段。
  • 自然语言交互: 你可以通过自然语言命令与 Claude Code 交互,让编码更高效、更直观。
  • Github集成: 可以更方便的修改代码
  • 安全保障: 有着权限管理系统,防止提示注入等攻击。

Claude Code 能主动与人协作,能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至 GitHub,以及使用命令行工具 -- 同时能够确保用户在每一步都能参与其中。

Claude Code Demo

目前,Claude Code 还在测试阶段,你可以申请加入等待列表,提前体验这款工具。

在接下来的几周里,Anthropic 计划根据使用情况不断改进它:提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果,并扩展 Claude 对自身能力的理解。

总结与展望

Claude 3.7 Sonnet 的发布,不仅是 Anthropic 公司技术实力的又一次展示,更是 AI 辅助编程领域的一个重要里程碑。从本文介绍的混合推理引擎到 Agentic 编码能力,从基准测试的优异表现到实际应用案例,我们可以清晰地看到这个模型在提升开发者生产力、赋能软件开发方面的巨大潜力。

Anthropic 在官方博客中展望未来时,描绘了一个令人兴奋的蓝图:AI 将逐步从助手、协作者,最终跃升为开拓者。

展望未来

  • 2024 年 - Claude 助手 (Claude assists): 专注于增强个体开发者的能力,帮助他们更好地完成当前的工作,让每个人都成为“最佳版本的自己”。
  • 2025 年 - Claude 协作者 (Claude collaborates): 能够独立完成数小时的工作,达到专家水平,扩展个人和团队的能力边界。
  • 2027 年 - Claude 开拓者 (Claude pioneers): 能够为具有挑战性的问题找到突破性的解决方案,而这些问题通常需要团队花费数年时间才能解决。这意味着 Claude 将具备高度的自主性、创造性和问题解决能力,能够在未知领域进行探索和创新。

总之,Claude 3.7 Sonnet 的发布,展示了 AI 辅助编程领域的新进展和潜力。它不仅是一款强大的工具,也能为开发者提供新的协作方式。我们期待开发者能够积极探索和利用这些新技术,与 AI 共同推动软件开发的进步。

Happy Developer