AI周报:Claude Sonnet 4.6、Gemini 3.1 Pro发布,DeepSeek V4 Lite泄露,GPT 5.3即将登场
🤖 AI 周报:四大模型齐发力
Claude Sonnet 4.6 · Gemini 3.1 Pro · DeepSeek V4 Lite · GPT 5.3
ARC-AGI-2
上下文窗口
发布日期
🟠Anthropic 发布 Claude Sonnet 4.6
✅ 已发布约2月20日Anthropic 本周正式发布了 Claude Sonnet 4.6,这是目前 claude.ai 和 Claude Cowork 的默认模型。该版本在编程、计算机操控、长上下文推理、智能体规划、知识工作和设计等多个维度均有显著提升。
Anthropic 表示:"以前需要 Opus 级别模型才能完成的任务——包括现实世界中具有经济价值的办公任务——现在 Sonnet 4.6 就能胜任。该模型在计算机操控能力方面也有重大改进。"
| 特性 | 详情 |
|---|---|
| 上下文窗口 | 1M tokens(Beta) |
| 定价 | 输入 $3 / 输出 $15(每百万tokens) |
| 定位 | 与 Sonnet 4.5 同价,性能接近 Opus 级别 |
| 核心提升 | 编程、计算机操控、长上下文推理、智能体规划 |
🔵Google 发布 Gemini 3.1 Pro
✅ 已发布2月19日Google DeepMind 于2月19日发布了 Gemini 3.1 Pro,作为 Gemini 3 系列的重要升级版本。该模型已在 Google AI Studio、Gemini CLI、Vertex AI、Gemini 应用和 NotebookLM 等平台上线。
最亮眼的数据:在 ARC-AGI-2 基准测试中达到 77.1% 的验证分数,推理性能是 Gemini 3 Pro 的两倍以上。同时支持 1M token 上下文窗口,具备跨文本、图像、音频、视频和代码的多模态推理能力。
Google 表示:"3.1 Pro 在核心推理方面迈出了重要一步,是复杂问题解决的更智能、更强大的基线。"
🟡DeepSeek V4 Lite 意外泄露
⚠️ 泄露2月22-23日DeepSeek V4 Lite 本周末通过非官方渠道泄露,在技术社区引发广泛讨论。泄露的演示显示,该模型在 SVG 代码生成方面表现惊人:
- 用 54 行代码 生成了精细的 Xbox 手柄 SVG 图形
- 用 42 行代码 生成了鹈鹕骑自行车的复杂场景
- 在代码优化和逻辑组织方面 超越了 DeepSeek 3.2、Claude Opus 4.6 和 Gemini 3.1
🟢OpenAI 官宣 GPT 5.3 "Garlic"
🔜 即将发布2月26日OpenAI 正式确认 GPT 5.3(内部代号 "Garlic")将于 2026年2月26日 发布。早期预测显示,该模型将在 SimpleBench 常识推理测试中 突破 83.7% 的人类基线,这将是 AI 推理能力的一个里程碑。
性能提升归功于改进的强化学习技术和优化的预训练数据处理。预计将影响客户服务自动化和金融决策系统等领域。
🔒OpenAI 为 ChatGPT 新增安全功能
🛡️ 安全本周OpenAI 本周还为 ChatGPT 推出了两项重要安全功能:
- Lockdown Mode(锁定模式):限制 ChatGPT 与外部系统的交互方式,降低提示注入攻击导致数据泄露的风险
- Elevated Risk 标签:在特定产品上显示风险提示,告知用户某些功能可能引入额外风险(如 Codex 的网络访问权限)
📊本周模型对比一览
| 模型 | 厂商 | 状态 | 核心亮点 | 日期 |
|---|---|---|---|---|
| Claude Sonnet 4.6 | Anthropic | ✅ 已发布 | Opus级性能、1M上下文、计算机操控提升 | ~2月20日 |
| Gemini 3.1 Pro | ✅ 已发布 | ARC-AGI-2 达77.1%、推理翻倍、多模态 | 2月19日 | |
| DeepSeek V4 Lite | DeepSeek | ⚠️ 泄露 | SVG代码生成超越多个竞品模型 | 2月22-23日 |
| GPT 5.3 Garlic | OpenAI | 🔜 预告 | 预计突破人类推理基线83.7% | 2月26日 |
📝 数据来源:SD Times、TechBriefly、Geeky Gadgets、llm-stats.com、Anthropic 官方博客、Google AI Blog
⏰ 更新时间:2026年2月23日