🔥 今日最热
OpenAI Codex 全面扩张:从编码工具到企业生产力平台
[产品发布] [Agent平台]
是什么:OpenAI 同时发布两篇重磅博客,宣布 Codex 从开发者编码工具全面升级为企业级生产力平台。核心数据:5M+ 周活用户,其中 20% 是非开发者(分析师、营销、销售、投资人等),非开发者增速是开发者的 3 倍以上。同时推出三大新功能:
- 6 个角色专属插件:Data Analytics(Snowflake/Databricks/Tableau 集成)、Creative Production(Figma/Canva/Shutterstock)、Sales(Salesforce/HubSpot)、Product Design、Public Equity Investing(Moody’s/FactSet/S&P)、Investment Banking——每个插件打包了对应角色需要的 app、skill 和 workflow,无需编码
- Sites(预览):Codex 可以生成交互式托管网站,通过 URL 分享给团队。支持仪表盘、项目看板、素材库等,且 Codex 能持续更新内容
- Annotations:精确修改工具——选中代码/文档/表格中的特定元素,用自然语言指示 Codex 仅修改该部分
解决什么问题:企业中大量知识工作者(分析师做报告、销售写跟进、投行做 pitch)的工作本质是”收集信息→整理→输出文档”。这些工作以前需要多个工具切换,现在 Codex 通过角色插件把这些流程整合到一个 Agent 中。
为什么值得关注:这是 AI Agent 从”开发者工具”走向”企业操作系统”的标志性事件。6 个插件覆盖了从数据分析到投资银行的核心商业场景,集成了 Salesforce、Snowflake、Figma 等主流企业工具。Sites 功能更是让 Agent 的产出从”代码/文本”扩展到”可交互的网页应用”。当 Codex 同时拥有 5M 用户和 110 个 skill 时,它不再是一个工具——它是一个平台。
🔗 Codex for every role | Codex for knowledge work
chopratejas/headroom — AI Agent 上下文压缩层 [新上榜]
[工具链] [推理优化] ⭐ +1,265/day
是什么:一个专门为 AI Agent 设计的上下文压缩层。提供 6 种压缩算法,可将工具输出、日志、文件和 RAG chunk 压缩 60-95% 的 token,同时保持答案质量不变。提供 library、HTTP proxy 和 MCP server 三种接入方式,支持本地运行和可逆压缩。
解决什么问题:AI Agent 工作时会积累大量上下文——工具输出、搜索结果、代码片段、对话历史。这些上下文很快就会撑爆模型的 context window。现有方案要么粗暴截断(丢失信息),要么靠 RAG(增加延迟)。headroom 在内容进入 LLM 之前做智能压缩,让 Agent 能在有限的 context 内处理更多轮次的任务。
为什么值得关注:上下文管理是 Agent 工程的核心难题之一,headroom 是目前看到的第一个专门针对这个问题的通用解决方案。MCP server 接入意味着任何 Agent 框架都能一行配置使用。与昨天的 Scrapling(Web→Markdown)、markitdown(文件→Markdown)一起,构成了 Agent 输入管道的完整压缩链。
🔗 github.com/chopratejas/headroom
Holo3.1 — 开源本地 Computer Use Agent [新]
[开源模型] [Computer Use]
是什么:H Company 发布 Holo3.1 系列模型,基于 Qwen 架构,专为 Computer Use(操控浏览器/桌面/手机)设计。提供 0.8B/4B/9B/35B-A3B 四个规格,首次提供量化版本(FP8/NVFP4/GGUF)支持完全本地部署。
核心数据:35B-A3B 在 AndroidWorld 上从 67% 提升到 79.3%;NVFP4 量化相比 BF16 仅损失约 2 分,但吞吐量提升 1.74×;端到端 Agent 速度从 6.8s/step 降至 3.3s/step。
解决什么问题:Computer Use Agent(如 Claude Computer Use)通常依赖云端大模型,延迟高、成本高、数据隐私无法保证。Holo3.1 通过量化让 35B MoE 模型能在消费级硬件(Mac/Windows/DGX Spark)上本地运行,数据不离开用户网络。
为什么值得关注:这是”本地 Computer Use”赛道的重要进展。当 Agent 可以在你的电脑上本地操控浏览器和桌面,且不发送任何数据到云端时,企业级采纳的安全顾虑大幅降低。NVFP4 量化后的性能损失可忽略不计(~2分),但速度翻倍——这对需要实时交互的 Computer Use 场景至关重要。
🔗 huggingface.co/blog/Hcompany/holo31
🔥 持续热门
| 项目 | 今日变化 | 趋势 | 首次报道 |
|---|---|---|---|
| markitdown | +3,618⭐ | 加速 ↑↑ | 05-30 |
| hermes-webui | +1,722⭐ | 加速 ↑↑ | 06-01 |
| Scrapling | +1,182⭐ | 减速 ↓ | 06-01 |
| VoxCPM | +783⭐ | 稳定 | 06-01 |
| supermemory | +680⭐ | 加速 ↑ | 06-01 |
🧩 Agent 生态
GitHub 的 Agent 战略路线图 (Latent Space 专访)
[平台] [Agent框架]
Latent Space 专访 GitHub 工程 VP Kyle Daigle,讨论 GitHub 对 AI Agent 的战略布局。核心信号:GitHub 不只是”在 IDE 里加 AI”,而是在构建从代码到部署的全链路 Agent 生态。对 Agent 开发者来说,理解 GitHub 的平台方向至关重要。
Video Agent 模型:下一个前沿 (Latent Space × xAI)
[Agent框架] [视频]
xAI Grok Imagine 团队的 Ethan He 分享了对 Video Agent 模型的看法——能理解、编辑和生成视频的多模态 Agent。与文本/图像 Agent 不同,视频 Agent 需要处理时序信息、因果关系和物理一致性,这是一个尚未被充分探索的领域。
hermes-webui — +1,722⭐(较昨日 +945 大幅加速)
[Agent工具]
Hermes Agent 的 Web UI 持续爆发。三栏布局(会话/聊天/文件浏览),零构建步骤,纯 Python + vanilla JS。增速从 945 跳到 1722,说明非终端用户对 Agent 访问方式的需求旺盛。
🔗 github.com/nesquena/hermes-webui
🤖 模型与推理
微软发布 MAI-Thinking-1 和 MAI-Code-1-Flash [新]
[开源模型] [代码模型]
是什么:微软发布两款自研模型。MAI-Thinking-1(35B 参数推理模型)声称在盲测中”preferred to Sonnet 4.6”;MAI-Code-1-Flash(5B 参数编码模型)专为 GitHub Copilot 和 VS Code 设计,已向 Copilot 个人用户推出。两款模型均声称使用”干净且已获授权的数据”训练,未蒸馏自第三方模型。
为什么值得关注:Simon Willison 特别指出了训练数据的声明——如果属实,这可能是首批不依赖未授权网络数据爬取的实用代码模型。5B 的 MAI-Code-1-Flash 直接集成到 Copilot,意味着微软正在用自研小模型替代对 OpenAI 模型的依赖。与昨天 JetBrains 开源 Mellum2 一起,IDE 巨头们都在走”自研模型 + 自有平台”的垂直整合路线。
🔗 simonwillison.net/2026/Jun/2/microsofts-new-models/
vLLM Session-Aware Agentic Routing (SAAR) [新]
[推理优化] [基础设施]
是什么:vLLM 发布 SAAR(Session-Aware Agentic Routing),解决多模型路由在 Agent 场景下的连续性问题。核心思路:在 Agent 多轮对话中,不能随意切换模型——工具调用结果必须返回给发起调用的模型,prefix cache 不能因为路由决策而丢弃。
核心数据:模型切换减少 79.29%,消除 3,836 次不安全切换,估计物理模型成本降低 78.71%,在 2,896 次生产请求中零连续性违规。
为什么值得关注:当企业用多个模型(便宜/昂贵、小/大)混合服务 Agent 流量时,路由器的”智能”不只是选最便宜的模型——还要知道什么时候不能切换。这是 Agent 基础设施走向成熟的一个标志。
🔗 vllm.ai/blog/2026-06-02-session-aware-agentic-routing
MiniMax-M3 支持 1M Token 上下文 (Together AI)
[开源模型] [推理]
Together AI 宣布上线 MiniMax-M3 推理服务,核心特性是 1M token 上下文窗口 + 多模态支持。1M context 在实际部署中的工程挑战(KV cache 管理、推理延迟)以及 Together AI 的优化方案值得关注。
🔗 together.ai/blog/serving-minimax-m3-for-efficient-inference
NVIDIA Nemotron 3 Ultra / RTX Spark (Latent Space AI News)
[开源模型]
Latent Space AI News 汇总了 NVIDIA 本周发布的多款模型更新:Nemotron 3 Ultra 和 RTX Spark。与昨天报道的 Cosmos 3 一起,NVIDIA 正在构建从物理 AI 到通用推理的完整开源模型矩阵。
🔗 latent.space/p/ainews-nvidia-cosmos-3-nemotron-3
- Accelerating vLLM-Omni Inference with AutoRound Quantization (vLLM Blog) — vLLM-Omni 多模态推理 + Intel AutoRound 量化,降低部署成本。链接
🛡️ 安全与伦理
OpenAI 发布青少年安全与全球领导力报告
[政策] [安全]
OpenAI 发布关于青少年安全与 AI 机会的全球领导力报告。与昨天的政策立场文件一起,OpenAI 正在构建从技术安全到社会责任的完整叙事。在 Codex 进入企业场景(接入了 Salesforce、Snowflake 等敏感系统)的背景下,安全叙事是商业化必需的配套。
🔗 openai.com/index/advancing-youth-safety-and-opportunity-through-global-leadership
🏭 行业动态
- Travelers 保险全美部署 AI 理赔系统 (OpenAI Blog) — Travelers 成为首个在全美范围内部署 AI 驱动理赔处理的大型保险公司。OpenAI 的企业客户名单从科技/金融扩展到传统保险业。链接
- Simon Willison: Pasted File Editor — 新的 LLM 辅助文件编辑工具,支持粘贴内容后直接编辑。Simon 的个人项目生态持续扩展。链接
- Simon Willison: datasette-agent-micropython — 在 MicroPython 环境中运行 LLM Agent 的实验。嵌入式/边缘设备上的 Agent 是一个新兴方向。链接
🔮 趋势总结
1. Codex 的平台化标志着 Agent 进入”操作系统”竞争阶段:6 个角色插件 + 110 个 skill + Sites 托管 = OpenAI 在构建 AI 时代的”App Store”。当 Codex 同时连接 Salesforce、Snowflake、Figma 等企业系统时,竞争维度从”哪个模型更强”变成了”谁的生态更完整”。
2. 上下文压缩成为 Agent 基础设施的新层:headroom(60-95% token 压缩)+ vLLM SAAR(会话感知路由)+ markitdown(文档→Markdown)——这三个项目分别解决 Agent 的上下文生成、压缩和路由问题,合在一起构成了 Agent 的”内存管理系统”。
3. 本地部署模型的实用化拐点已到:Holo3.1 量化后仅损失 2 分但速度翻倍、微软 5B 编码模型直接进入 Copilot、MAI-Thinking-1 用 35B 参数挑战 Sonnet 4.6——小模型在特定场景下已经可以替代大模型,这不是预测,是正在发生的事实。