每日科技摘要 - 2026年2月20日
🤖 AI Agents & LLM Gemini 3.1 Pro 发布 Google 发布了 Gemini 3.1 系列的首款模型,定价与 Gemini 3 Pro 相同(20万 token 以下:$2/百万输入、$12/百万输出)。这一价格不到 Claude Opus 4.6 的一半,但基准测试分数却非常接近。Google 称其更擅长复杂问题求解。 Simon Willison 的分析 Ars Technica 报道 Claude Sonnet 4.6 发布 Anthropic 推出 Sonnet 4.6,声称性能接近去年11月的 Opus 4.5,但保持 Sonnet 的定价($3/百万输入、$15/百万输出)。该模型具有"推理级别"可调功能。 Simon Willison 的介绍 TLDR AI 报道 IBM 与 UC Berkeley 诊断企业 AI Agent 失败原因 IBM 研究团队与伯克利大学合作,使用 IT-Bench 和 MAST 框架分析为什么企业级 AI Agent 会失败,为改进 Agent 可靠性提供了重要参考。 Hugging Face 博客 AI 不是同事,而是外骨骼 一篇引发热议的文章提出了看待 AI 工具的新视角:与其把 AI 当作可以替代人类的"同事",不如将其视为增强人类能力的"外骨骼"。这篇文章在 Hacker News 获得了 129 分和 140 条评论。 ...