2026年2月大语言模型三连发

Claude Sonnet 4.6 Gemini 3.1 Pro GLM-5 开源
三大厂商同月交锋，AI竞赛进入白热化

2026年2月，大语言模型领域迎来了一波密集的重磅更新。Anthropic发布了Claude Sonnet 4.6，以旗舰级性能和亲民价格震撼市场；Google DeepMind推出Gemini 3.1 Pro，推理能力翻倍却价格不变；中国智谱AI则将GLM-5以MIT许可开源，744亿参数模型免费可用。

时间线速览：2月11日 GLM-5 开源发布 - 2月17日 Claude Sonnet 4.6 发布 - 2月19日 Gemini 3.1 Pro 预览版上线 - 2月23日 Claude Sonnet 4.6 登陆 Amazon Bedrock

Claude Sonnet 4.6：旗舰性能，五分之一的价格

Anthropic Claude Sonnet 4.6

发布日期：2026年2月17日已上线 Amazon Bedrock、Figma Make

⚡核心亮点：Sonnet 4.6 接近 Opus 4.6 的智能水平，但成本仅为其五分之一。在 Claude Code 测试中，用户约70%的时间更偏好 Sonnet 4.6 而非前代 Sonnet 4.5。

🧠能力升级：在编程、Agent任务和专业工作方面达到前沿水平。支持100万token上下文窗口。

💰定价策略：与Sonnet 4.5保持相同定价，性能大幅提升但不加价，被VentureBeat称为AI行业的地震级重新定价事件。

🔧Computer Use：增强的计算机使用能力，模型不再仅仅调用API，而是开始像人类一样操作计算机界面。

Gemini 3.1 Pro：推理能力翻倍，价格纹丝不动

Google DeepMind Gemini 3.1 Pro

发布日期：2026年2月19日预览版 Google AI Studio / Vertex AI

🎯ARC-AGI-2 得分 77.1%：前代仅31.1%，提升超过一倍。ARC-AGI-2测试模型解决全新逻辑模式的能力，这不是微调式的进步，而是代际飞跃。

📊Humanity Last Exam 44.4%：该测试评估高级领域专业知识，OpenAI的GPT-5.2仅得34.5%，差距达10个百分点。

💵价格不变：输入$2/百万token，输出$12/百万token，与Gemini 3 Pro完全一致。100万token上下文窗口，64K输出容量。

⚠️注意事项：目前仍为预览状态，无SLA保障、无正常运行时间保证，企业生产环境使用需谨慎。

Hacker News 热评：Google just dropped a reasoning nuke - 77% ARC-AGI while keeping prices flat? Devs, drop everything.（Google扔了一颗推理核弹——77% ARC-AGI还不涨价？开发者们，放下手头的活吧。）

GLM-5：开源界的新王者

智谱AI GLM-5

发布日期：2026年2月11日 MIT许可完全开源

🏆开源模型第一名：在Artificial Analysis Intelligence Index上获得52分，成为首个突破50分的开源模型。在SWE-rebench编程基准测试中以42.1%的得分排名第一。

📐744亿参数：专为复杂软件工程和长期Agent任务设计，性能匹配Claude Opus 4.5水平。

🔓MIT许可证：模型权重和训练基础设施完全免费开放，任何研究者、开发者和组织都可以自由使用和构建。

🌍意义深远：这不仅是一次模型发布，更是AI能力民主化的重要里程碑。智谱AI与清华大学联合研发，代表了中国AI开源力量的崛起。

三大模型横向对比

维度	Claude Sonnet 4.6	Gemini 3.1 Pro	GLM-5
发布方	Anthropic	Google DeepMind	智谱AI
发布日期	2月17日	2月19日	2月11日
模型定位	旗舰性能平民价	推理能力翻倍	开源模型之王
上下文窗口	100万 tokens	100万 tokens	-
ARC-AGI-2	-	77.1%	-
开源	闭源	闭源	MIT许可
参数量	未公开	未公开	744B
定价	与Sonnet 4.5相同	$2/$12 每百万token	免费开源
状态	正式发布	预览版	正式发布

行业趋势分析

趋势一：性能飙升，价格持平
无论是Claude Sonnet 4.6还是Gemini 3.1 Pro，都在大幅提升性能的同时保持甚至降低了价格。AI能力的摩尔定律正在加速——每隔几个月，同等价格能买到的智能水平就翻一番。

趋势二：开源力量崛起
GLM-5以MIT许可开源744B参数模型，性能匹配闭源旗舰。开源与闭源的差距正在快速缩小，这对整个AI生态意味着更多的创新可能性和更低的使用门槛。

趋势三：Agent能力成为核心竞争力
三款模型都强调了Agent任务能力——Claude的Computer Use、Gemini的复杂推理、GLM-5的长期任务规划。2026年的AI竞赛，不再只是谁更聪明，而是谁能做更多事。

2026年2月的这波更新潮，让我们清晰地看到：大语言模型的竞争已经从单纯的基准测试分数，转向了实际应用能力、定价策略和生态开放度的全方位较量。对于开发者和企业来说，这意味着更多选择、更低成本、更强能力——AI的黄金时代，正在加速到来。