今日概览
今天的焦点集中在模型能力迭代与开发者工具下沉。OpenAI 继续把 Codex 推向更强的桌面执行与浏览能力,Anthropic 生态则围绕 Claude Opus 4.7 与更细粒度的 thinking 控制扩展;同时,安全代理评测与视频生产工作流也在快速冒头。
OpenAI 扩展 Codex,进一步贴近桌面级开发助手
OpenAI 发布新版 Codex,强调“几乎无所不包”的工作流覆盖,核心变化是把能力从代码补全继续推向桌面操作、应用内浏览、图像生成、记忆与插件扩展。对开发者而言,这意味着 Codex 不再只是写代码的模型入口,而是在向可直接执行任务的通用工作台演进。TechCrunch 的解读也把这次更新放在与 Anthropic 的竞争框架下:当桌面控制权、浏览能力和上下文记忆被整合进同一产品后,AI 编程工具的竞争点就从模型回答质量,进一步转向“能否真实完成任务”。
来源:OpenAI Blog
Anthropic 工具链跟进 Opus 4.7,细化思考控制参数
Simon Willison 记录了 llm-anthropic 0.25 发布,新增对 claude-opus-4.7 的支持,并暴露更细粒度的 thinking_effort、thinking_display 与 thinking_adaptive 等选项,同时把默认 max_tokens 提升到各模型允许的上限。这个更新的意义不只是“支持新模型”,而是让开发者在调用 Claude 时更容易控制推理成本、展示方式与输出策略。对 agent 和工具调用场景来说,这类参数化能力很关键,因为它直接关系到可观测性、延迟、费用和结果稳定性,说明 Anthropic 生态正在把“会思考”逐步产品化。
Qwen 3.6 本地量化模型在趣味图形测试中压过 Claude Opus 4.7
Simon Willison 用自己一贯的“鹈鹕骑自行车”SVG 基准比较了阿里 Qwen3.6-35B-A3B 与 Claude Opus 4.7,结果是运行在笔记本上的 Qwen 量化模型生成出了更像样的图形。作者也明确强调,这个测试更多是带有戏谑意味的观察,不足以代表通用智能或综合实用性;但它仍释放出一个很有价值的信号:本地模型在特定生成任务上的可用性正在快速逼近甚至短时超过封闭大模型。对本地 AI 工作流、LM Studio 这类工具和边缘侧部署来说,这种趋势会继续增强“够用即可落地”的吸引力。
安全事件响应代理开始进入专项评测阶段
论文《Sir-Bench》提出了面向安全事件响应代理的专项基准,说明 agent 评测正在从通用问答、代码生成,进一步走向垂直任务的真实流程验证。安全响应场景的特殊性在于,它要求模型不仅能理解日志、告警与上下文,还要具备多步决策、工具协调与误判成本控制能力。基准的出现通常意味着一个方向正在从“概念可行”转入“工程可比较”的阶段。对企业安全、SOC 自动化和高风险 agent 落地而言,这类 benchmark 的价值很直接:它为采购、调参与能力边界判断提供了更接近实战的参照系。