Daily Digest - 2026-02-25
每日科技资讯精选,涵盖 AI、大语言模型、科技新闻与财经动态。 ...
每日科技资讯精选,涵盖 AI、大语言模型、科技新闻与财经动态。 ...
AI Agents、LLM、科技与财经领域的每日精选资讯
今日精选科技资讯,涵盖 AI Agents、大语言模型、科技动态与财经要闻。 ...
🤖 LLM 大语言模型 GPT-5.3-Codex-Spark 速度提升 30% OpenAI 宣布其 GPT-5.3-Codex-Spark 模型速度提升约 30%,现已达到每秒 1200+ tokens 的推理速度。这一优化将显著提升代码生成和开发者体验。 🔗 Simon Willison’s Blog Google 高管警告:两类 AI 创业公司可能难以生存 Google 副总裁发出警告,随着生成式 AI 的演进,“LLM 包装器"和"AI 聚合器"两类创业公司面临巨大压力——利润空间收窄、差异化不足,长期生存堪忧。 🔗 TechCrunch Tumbler Ridge 枪击案嫌疑人曾与 ChatGPT 讨论暴力场景 加拿大 BC 省 Tumbler Ridge 校园枪击案嫌疑人 Jesse Van Rootselaar 在案发前数月曾与 ChatGPT 进行涉及枪支暴力的对话,触发了 OpenAI 的自动审核系统。员工曾内部讨论是否报警,但其言论"未达到向当局报告的门槛”。 🔗 The Verge | BBC 为什么 Claude 是 Electron 应用? Anthropic 的 Claude 桌面应用采用 Electron 框架引发社区热议。文章探讨了 AI 公司在原生应用 vs 跨平台方案上的技术权衡。 🔗 Hacker News 突破:单张 RTX 3090 运行 Llama 3.1 70B 开发者实现了通过 NVMe-to-GPU 直连、绕过 CPU 的方式,在单张消费级 RTX 3090 上运行 Llama 3.1 70B 模型。这一技术可能为消费级硬件运行大模型开辟新路径。 🔗 GitHub ...
🤖 AI Agents & LLM Gemini 3.1 Pro 发布 Google 发布了 Gemini 3.1 系列的首款模型,定价与 Gemini 3 Pro 相同(20万 token 以下:$2/百万输入、$12/百万输出)。这一价格不到 Claude Opus 4.6 的一半,但基准测试分数却非常接近。Google 称其更擅长复杂问题求解。 Simon Willison 的分析 Ars Technica 报道 Claude Sonnet 4.6 发布 Anthropic 推出 Sonnet 4.6,声称性能接近去年11月的 Opus 4.5,但保持 Sonnet 的定价($3/百万输入、$15/百万输出)。该模型具有"推理级别"可调功能。 Simon Willison 的介绍 TLDR AI 报道 IBM 与 UC Berkeley 诊断企业 AI Agent 失败原因 IBM 研究团队与伯克利大学合作,使用 IT-Bench 和 MAST 框架分析为什么企业级 AI Agent 会失败,为改进 Agent 可靠性提供了重要参考。 Hugging Face 博客 AI 不是同事,而是外骨骼 一篇引发热议的文章提出了看待 AI 工具的新视角:与其把 AI 当作可以替代人类的"同事",不如将其视为增强人类能力的"外骨骼"。这篇文章在 Hacker News 获得了 129 分和 140 条评论。 ...
AI 动态 Anthropic 禁止第三方使用订阅认证 Anthropic 正式禁止使用订阅认证进行第三方使用。这项政策变更引发了 Hacker News 社区的热烈讨论,获得超过 323 点赞和 355 条评论。 原文链接 Claude Sonnet 4.6 正式发布 Anthropic 发布了 Sonnet 4.6,性能接近去年 11 月发布的 Opus 4.5,但价格更亲民(输入 $3/百万 tokens,输出 $15/百万 tokens)。知识截止日期为 2025 年 8 月,支持最高 100 万 tokens 输入(beta)。 原文链接 Ethan Mollick:智能体时代的 AI 使用指南 Ethan Mollick 发布新文章,指导用户在智能体时代如何选择和使用不同的 AI 工具——现在已不仅仅是聊天机器人了。 原文链接 Google Lyria 3 音乐生成模型进入 Gemini Google 将 Lyria 3 AI 音乐模型集成到 Gemini,用户可通过简单提示生成 30 秒音乐片段。 原文链接 IBM 与 UC Berkeley 诊断企业智能体失败原因 IBM 与加州大学伯克利分校联合研究,使用 IT-Bench 和 MAST 框架诊断企业级 AI 智能体失败的原因。 原文链接 ...
🤖 AI Agents & LLM Apple Xcode 26.3 正式支持 AI 编程代理 Apple 发布 Xcode 26.3,内置对 Anthropic Claude Agent 和 OpenAI Codex 的原生支持,开发者可以直接在 IDE 中使用 AI 编程代理完成代码生成、重构和调试任务。这标志着苹果在 AI 开发工具领域迈出重要一步。 🔗 Apple Newsroom 🔗 TechCrunch 报道 阿里 Qwen3-Coder-Next 开源发布 阿里云通义千问团队发布 Qwen3-Coder-Next,在代码生成和理解任务上展现出强劲性能,引发社区热烈讨论(HN 552 讨论)。 🔗 Qwen 官方博客 Deno Sandbox:AI 代理安全执行环境 Deno 团队推出托管沙箱产品,支持 Python/JavaScript 调用,特别适合 AI 代理场景。亮点功能:API 密钥代理机制可防止恶意代码窃取凭证(HN 303 讨论)。 🔗 Deno 博客 OpenAI 发布 Codex 桌面应用 OpenAI 推出 macOS 版 Codex 应用,提供多代理并行工作流、技能(Skills)系统和自动化任务调度。Simon Willison 深度评测指出,Codex 本质上是通用代理框架,代码编写只是其能力之一。 🔗 OpenAI 公告 🔗 Simon Willison 评测 Agent Skills 平台上线 新平台 Agent Skills 专注于为 AI 代理提供可复用的技能模块,在 Hacker News 引发热议(353 讨论)。 ...
🤖 AI 与 LLM OpenAI 发布 Codex 桌面应用 OpenAI 正式发布了 Codex macOS 桌面应用,为代码代理(coding agent)提供了原生体验。新应用支持 Skills 系统和 Automations 定时任务功能,内置 Electron 架构以便未来支持 Windows。自 12 月 GPT-5.2-Codex 发布以来,Codex 使用量翻倍,过去一个月有超过 100 万开发者使用。 🔗 OpenAI 官方公告 xAI 正式并入 SpaceX Elon Musk 宣布 SpaceX 收购 xAI(包括 X/Twitter),打造"地球上(和地球外)最具雄心的垂直整合创新引擎"。合并后的公司将整合 AI、火箭、星链、直连手机通信和实时信息平台。Musk 表示计划建设太空数据中心,解决地面电力和冷却限制问题。 🔗 SpaceX 官方公告 Google DeepMind 推出 Game Arena AI 基准测试 Google DeepMind 与 Kaggle 合作推出 Game Arena,通过游戏场景评估 AI 模型能力。这种新型基准测试方法旨在更全面地衡量 AI 的推理和决策能力。 🔗 Google 博客 Firefox 将支持一键关闭 AI 功能 Mozilla 宣布 Firefox 148(2 月 24 日发布)将新增 AI 控制开关,让用户可以完全禁用浏览器中的所有 AI 功能,包括内置聊天机器人、翻译和 AI 标签页分组建议等。 ...
🤖 AI Agents 与大模型 OpenClaw AI 助手构建自己的社交网络 OpenClaw(此前名为 Clawdbot、Moltbot)的 AI 助手现在有了自己的社交平台 Moltbook。这是一个类似 Reddit 的平台,AI Agent 可以在上面发帖、评论、创建子版块。目前已有超过 32,000 个 AI Agent 在使用该平台。 Simon Willison 对此进行了深度分析,认为这是目前最有趣的 AI 实验之一。Agent 们在上面分享各种有用信息,比如如何远程控制 Android 手机、如何通过 streamlink + ffmpeg 观看直播等技术技巧。但他也警告说,这种「每四小时从互联网获取并执行指令」的机制存在严重的安全隐患。 来源: TechCrunch, Simon Willison’s Blog, The Verge Anthropic 为 Cowork 推出 Agentic 插件 Anthropic 为其 Cowork 产品带来了插件功能,用户可以通过插件告诉 Claude「你希望工作如何完成、使用哪些工具和数据、如何处理关键工作流程」,从而获得更一致的输出结果。 来源: TechCrunch Kimi K2.5 技术报告发布 月之暗面发布了 Kimi K2.5 的技术报告,引起 Hacker News 社区的广泛讨论,获得 178 分和 78 条评论。 来源: GitHub - MoonshotAI Steve Yegge 谈 Agent 与 CLI 设计 Steve Yegge 分享了他开发 Beads 工具的经验:“复杂的 CLI 不是给人类用的,是给 Agent 用的。我做的是一遍又一遍地把 Agent 的幻觉变成现实,直到几乎每一个 Agent 的猜测都是正确的。” 这种「欲望路径」设计方法很有启发性。 ...