深夜重磅！全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

更新时间：2025-02-25 12:14:12 发布时间：3小时前浏览：5809 评论：0

就在刚刚，Claude 3.7 Sonnet 正式发布。

作为 Claude 有史以来最智能的模型，它采用混合推理方式，既能快速生成响应，也能进行深入的逐步推理。

一个模型，两种思考模式。

此外， Anthropic 还发布了一款智能编程工具——Claude Code。

官方表示，Claude 3.7 Sonnet 和 Claude Code 标志着 AI 迈向真正增强人类能力的重要一步。它们不仅能深入推理、独立执行任务，还能高效协作，让 AI 在现实世界中发挥更大价值。

太长不看，省流版如下：

Claude 3.7 Sonnet：全球首款双模式混合推理模型，标准模式快速响应，扩展思考模式进行深度自我反思，在数学、物理和编程等复杂任务上表现卓越，注重实用导向，不必要拒绝减少 45%，强化代码协作能力Claude Code：直接在终端理解并操作代码库，能一次完成需 45 分钟以上的人工编程任务，专长于测试驱动开发、复杂调试和大规模代码重构，全面支持代码编辑、测试执行等核心开发流程

全球首款混合推理模型正式发布，你的 Claude 会思考了

新发布的 Claude 3.7 Sonnet 不仅引入了详细的逐步推理，而且也公开了「思考」过程。感谢 DeepSeek 的内卷，推动了行业透明度的提升。

就像人类用同一个大脑既能快速反应，又能深入思考一样，Anthropic 同样认为推理能力不应依赖于单独的模型。

最好是，一个模型搞定所有场景。

用户可以自由选择是让模型快速作答，还是让其进行更长时间的深度思考。

在标准模式下，它是 Claude 3.5 Sonnet 的升级版；在扩展思考（Extended Thinking）模式下，它会在回答前进行自我反思，大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。

从基准测试结果来看，Claude 3.7 Sonnet（扩展思维版）适用于强逻辑推理和数学任务，而 Grok 3 Beta 和 DeepSeek R1 则在特定任务（推理、数学竞赛）上表现更佳。

DeepSeek R1 在数学解题能力（97.3%）方面最强，同时在其他任务上也有不错的表现。

在推理模型的优化过程中，Anthropic 减少了对数学和计算机科学竞赛问题的侧重，更专注于满足企业对 LLM 的实际应用需求。

在专门评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中，Claude 3.7 Sonnet 达到了行业领先水平。同时，该模型在 TAU-bench 测试中也表现突出，展现了其在与用户及工具交互方面的优异能力。

值得一提的是，Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型，展现了更强的决策与规划能力。

该模型现已适用于所有 Claude 订阅计划，包括免费版、专业版、团队版和企业版，同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。

值得注意的是，除免费版外，所有平台均支持扩展思考模式（Extended Thinking Mode）。

无论使用哪种模式，定价与前代模型保持一致。输入 100 万个 token 收费 3 美元，输出 100 万个 token（包括思考过程中使用的 token）收费 15 美元。

在过去，Claude 出色的编程能力让其成为许多开发者的首选模型，现在，Claude 3.7 Sonnet 也进一步放大了其优势。

Cursor、Cognition、Vercel、Replit 和 Canva 等公司均确认该模型在处理复杂代码库、高级工具使用、代码修改规划和全栈更新处理等方面表现出色。

为优化用户体验，GitHub 集成功能已向所有订阅计划开放，开发者可以直接将代码库连接到 Claude，实现更高效的协作。无论是修复 Bug、开发新功能还是完善文档，Claude 3.7 Sonnet 都能为个人项目和企业级 GitHub 代码库提供更好的支持。

在安全性方面，通过与外部专家合作，相比前代模型，Claude 3.7 Sonnet 能更准确地区分恶意请求和正常请求，不必要的拒绝减少了 45%，能够提供更流畅的交互体验。

▲截取自 Claude 3.7 Sonnet 系统卡

代码写到一半想放弃？把复杂问题甩给 Claude Code

Anthropic 还推出了一款用于智能编程工具——Claude Code，目前作为限量研究预览版开放，开发者可以直接在终端中将大量工程任务交给 Claude 处理。

新推出的 Claude Code 能够搜索和阅读代码、编辑文件、编写并运行测试、提交和推送代码到 GitHub，以及使用命令行工具等。

据 Anthropic 官方介绍，在早期测试中，Claude Code 能一次性完成通常需要 45 分钟以上的人工任务，大幅减少开发时间和工作量，特别是在测试驱动开发（TDD）、调试复杂问题和大规模重构方面表现突出。

作为一款终端运行的智能编程助手，Claude Code 能够直接理解开发者的代码库，并通过自然语言命令帮助用户更高效地编码。它可以无缝集成到开发环境中，无需额外的服务器或复杂的配置，极大地简化了工作流程。

其核心功能包括编辑文件、修复 Bug、回答关于代码架构和逻辑的问题、执行测试、修复测试错误、进行代码格式检查，以及搜索 Git 历史记录、解决合并冲突、创建提交和拉取请求等。

Anthropic 表示，在接下来的几周内，他们计划持续优化 Claude Code，重点改进包括提升工具调用的稳定性、支持长时间运行的命令、改进应用内的渲染效果，以及增强 Claude 对自身能力的理解。

这次发布预览研究版本也是希望深入了解开发者如何使用 Claude 进行编程，从而为进一步优化未来的模型版本提供参考。

感兴趣的开发者在官方网站查看相关事项，指路

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 深夜重磅！全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

本文链接: http://szsmele.com/news/show-144784.html (转载时请保留)

0 条

俄公司发布汽车腐蚀排行榜理想高居第二！理想高管：完全不靠谱



科技 yidushengda ⋅ 16阅读量 ⋅ 0评论 ⋅ 1小时前

2025-02-25
特斯拉确认旗舰车型 Model S/X不会停产，今年晚些时候将迎来升级

科技测试账号勿联 ⋅ 15阅读量 ⋅ 0评论 ⋅ 2小时前

2025-02-25
小米SU7 Ultra发布会倒计时：小订通道将关闭，静态品鉴全国开展

科技测试账号勿联 ⋅ 13阅读量 ⋅ 0评论 ⋅ 2小时前

2025-02-25
被指精简AI投入成本“退租数据中心”，微软回应称“资本支出没变、可能做出某些调整”

科技测试账号勿联 ⋅ 19阅读量 ⋅ 0评论 ⋅ 2小时前

2025-02-25
CounterPoint 报告 2024 全球半导体收入同比增 19%：三星领衔

科技测试账号勿联 ⋅ 17阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25
起步股份突击死守“生死线”

科技测试账号勿联 ⋅ 11阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25
我国多类型通信网络数据价值有待深度挖掘

科技测试账号勿联 ⋅ 8阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25
携程2024年财报：入境游创造新增长动力和就业机会

科技测试账号勿联 ⋅ 13阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25
2.25操作策略

科技测试账号勿联 ⋅ 7阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25
iOS 18.4 Beta因问题被撤回 iPhone 12等设备无法更新

科技测试账号勿联 ⋅ 5阅读量 ⋅ 0评论 ⋅ 3小时前

2025-02-25

测试账号勿联

去ta空间

24小时热闻

今日推荐