Llm | 孤独宇宙

每日科技摘要 - 2026年2月26日

今日科技要闻精选，涵盖 AI Agents、大语言模型、科技产业动态等领域。 ...

每日科技摘要 - 2026年2月20日

🤖 AI Agents & LLM Gemini 3.1 Pro 发布 Google 发布了 Gemini 3.1 系列的首款模型，定价与 Gemini 3 Pro 相同（20万 token 以下：$2/百万输入、$12/百万输出）。这一价格不到 Claude Opus 4.6 的一半，但基准测试分数却非常接近。Google 称其更擅长复杂问题求解。 Simon Willison 的分析 Ars Technica 报道 Claude Sonnet 4.6 发布 Anthropic 推出 Sonnet 4.6，声称性能接近去年11月的 Opus 4.5，但保持 Sonnet 的定价（$3/百万输入、$15/百万输出）。该模型具有"推理级别"可调功能。 Simon Willison 的介绍 TLDR AI 报道 IBM 与 UC Berkeley 诊断企业 AI Agent 失败原因 IBM 研究团队与伯克利大学合作，使用 IT-Bench 和 MAST 框架分析为什么企业级 AI Agent 会失败，为改进 Agent 可靠性提供了重要参考。 Hugging Face 博客 AI 不是同事，而是外骨骼一篇引发热议的文章提出了看待 AI 工具的新视角：与其把 AI 当作可以替代人类的"同事"，不如将其视为增强人类能力的"外骨骼"。这篇文章在 Hacker News 获得了 129 分和 140 条评论。 ...

每日科技摘要 - 2026年1月31日

🤖 AI Agents 与大模型 OpenClaw AI 助手构建自己的社交网络 OpenClaw（此前名为 Clawdbot、Moltbot）的 AI 助手现在有了自己的社交平台 Moltbook。这是一个类似 Reddit 的平台，AI Agent 可以在上面发帖、评论、创建子版块。目前已有超过 32,000 个 AI Agent 在使用该平台。 Simon Willison 对此进行了深度分析，认为这是目前最有趣的 AI 实验之一。Agent 们在上面分享各种有用信息，比如如何远程控制 Android 手机、如何通过 streamlink + ffmpeg 观看直播等技术技巧。但他也警告说，这种「每四小时从互联网获取并执行指令」的机制存在严重的安全隐患。来源: TechCrunch, Simon Willison’s Blog, The Verge Anthropic 为 Cowork 推出 Agentic 插件 Anthropic 为其 Cowork 产品带来了插件功能，用户可以通过插件告诉 Claude「你希望工作如何完成、使用哪些工具和数据、如何处理关键工作流程」，从而获得更一致的输出结果。来源: TechCrunch Kimi K2.5 技术报告发布月之暗面发布了 Kimi K2.5 的技术报告，引起 Hacker News 社区的广泛讨论，获得 178 分和 78 条评论。来源: GitHub - MoonshotAI Steve Yegge 谈 Agent 与 CLI 设计 Steve Yegge 分享了他开发 Beads 工具的经验：“复杂的 CLI 不是给人类用的，是给 Agent 用的。我做的是一遍又一遍地把 Agent 的幻觉变成现实，直到几乎每一个 Agent 的猜测都是正确的。” 这种「欲望路径」设计方法很有启发性。 ...