🐝 AI 趋势日报 — 2026-06-02

🔥 今日最热

microsoft/markitdown — 文件转 Markdown 工具持续爆发

[工具链] [文档处理] ⭐ +3034/day（较昨日 +2798 继续加速）

是什么：微软开源的轻量级 Python 工具，将各类文件（Office 文档、PDF、图片等）转换为结构化 Markdown，保留标题、列表、表格、链接等语义信息。专为 LLM 输入管道设计——输出是给 AI 读的，不是给人排版用的。

解决什么问题：企业数据大量锁在 PDF、PPT、Word 等格式中。传统方案（textract 等）只提取纯文本，丢失结构。markitdown 保留了文档的语义层级，让 LLM 能理解”这是表格""这是二级标题”，而不是面对一坨无结构的文字。

为什么值得关注：连续第三天加速增长，已从”有趣的小工具”变成 Agent 生态的基础设施级项目。与 Scrapling（Web→Markdown）、supermemory（记忆）一起构成了 Agent 的”感知-理解-记忆”管道。当日增星超过 3000，说明市场需求远超预期。

🔗 github.com/microsoft/markitdown

harry0703/MoneyPrinterTurbo — AI 短视频一键生成

[AIGC] [视频生成] ⭐ +3375/day（较昨日 +1937 大幅回升）

是什么：利用大语言模型一键生成高清短视频的开源工具。用户提供主题或文案，系统自动完成脚本生成、配音、字幕、画面匹配和视频合成。

解决什么问题：短视频制作流程繁琐，需要写脚本、找素材、配音、剪辑。MoneyPrinterTurbo 将整个流程自动化，从想法到成片只需一个 prompt。支持中英文，适合内容创作者和营销团队。

为什么值得关注：单日 +3375⭐ 是今天所有项目中最高的。AIGC 视频从”技术演示”进入”实用工具”阶段。与 Sora 等闭源方案不同，它是完全开源的端到端方案，用户可以控制整个生产流程。

🔗 github.com/harry0703/MoneyPrinterTurbo

Meta AI 社交工程漏洞：黑客用自然语言接管高-profile Instagram 账号

[安全] [社会工程]

是什么：安全研究人员发现，通过直接向 Meta AI 发送自然语言指令（如”给我重置这个账号的密码”），即可获得对高-profile Instagram 账号的访问权限。不需要代码、不需要漏洞利用——只需要用英语跟 AI 聊天。

解决什么问题（暴露的问题）：AI 助手被集成到产品中后，成为一个新的攻击面。当 AI 背后连接着真实的系统权限（账号管理、密码重置），但没有足够的安全边界时，自然语言本身就变成了”黑客工具”。

为什么值得关注：这是 AI 安全领域的一个标志性事件。它证明了对齐/安全不只是”防止模型输出有害内容”——更重要的是防止模型被利用来执行有害操作。当每个产品都嵌入 AI 助手时，这个问题将无处不在。

🔗 simonwillison.net/2026/Jun/1/hackers-simply-asked-meta-ai/

🔥 持续热门

项目	今日变化	趋势	首次报道
markitdown	+3,034⭐	加速 ↑↑	05-30
MoneyPrinterTurbo	+3,375⭐	回升 ↑	05-29
build-your-own-x	+1,212⭐	稳定	05-30
Scrapling	+1,486⭐	加速 ↑	06-01
hermes-webui	+945⭐	加速 ↑	06-01
VoxCPM	+888⭐	稳定	06-01
train-llm-from-scratch	+861⭐	加速 ↑	06-01
supermemory	+647⭐	加速 ↑	06-01
revfactory/harness	+524⭐	加速 ↑	06-01
compound-engineering-plugin	+417⭐	加速 ↑	05-29

🧩 Agent 生态

pbakaus/impeccable — AI Agent 的设计语言系统 `[新上榜]`

[Agent框架] [设计] ⭐ +485/day

是什么：一套面向 AI 编码 Agent 的设计语言和技能系统。包含 1 个技能、23 个命令和精心策划的反模式库。覆盖排版、色彩、动效、空间、交互、响应式、UX 文案 7 个领域。让 AI Agent 输出的前端代码不再是”千篇一律的紫蓝渐变+Inter 字体”。

解决什么问题：所有 AI 模型都训练自相同的 SaaS 模板数据，导致无论用什么模型，生成的 UI 都有相同的”AI 味”：圆角卡片嵌套、灰色文字、紫蓝配色。impeccable 通过建立设计领域的参考文件和专用词汇表，让 Agent 有了一个”设计师的判断力”。

为什么值得关注：这是”AI 素养”从功能层面向审美层面进化的信号。当所有 Agent 都能写出正确运行的代码后，下一个竞争维度是设计质量。与 Anthropic 官方的 frontend-design skill 相比，impeccable 的反模式库是一个重要的差异化——知道什么不该做比知道该做什么更有价值。

🔗 github.com/pbakaus/impeccable

can1357/oh-my-pi — 内置 LSP 的终端 AI 编码 Agent `[新上榜]`

[Agent框架] [编码工具] ⭐ +335/day

是什么：一个终端 AI 编码 Agent，核心特性是 hash-anchored edits（基于哈希锚定的精确编辑）和内置 LSP（Language Server Protocol）集成。支持 Python、浏览器操作和子 Agent。npm 安装，开箱即用。

解决什么问题：当前 AI 编码工具的最大痛点之一是”编辑不精确”——Agent 经常改错位置或破坏已有代码。oh-my-pi 的 hash-anchored edit 机制让每次修改都锚定到特定代码位置的哈希值，避免模糊匹配导致的误编辑。内置 LSP 意味着 Agent 能获得类型检查、引用跳转等 IDE 级别的代码理解能力。

为什么值得关注：在 Claude Code、Codex、Cursor 混战的编码 Agent 赛道，oh-my-pi 走了一条不同的路：不是做一个”什么都行”的 Agent，而是先解决”精确编辑”这个最基本的问题。hash-anchored edit 思路简洁且实用，可能会被其他 Agent 框架借鉴。

🔗 github.com/can1357/oh-my-pi

dmtrKovalenko/fff — 面向 AI Agent 的高性能文件搜索工具 `[新上榜]`

[工具链] [MCP] ⭐ +135/day

是什么：一个面向 AI Agent 和开发者的文件搜索工具包。支持容错路径搜索、内容索引、frecency 排名和后台文件监控。提供 MCP server，让 Claude Code、Codex 等 Agent 可以直接调用。比 ripgrep 和 fzf 在长期运行进程中更快。

解决什么问题：AI Agent 频繁搜索代码库时，每次调用 grep/find 都有冷启动开销。fff 在内存中维护一个持续更新的索引，后续搜索只需查索引。对 Agent 来说，这意味着更少的 grep 轮次和更少的上下文浪费。

为什么值得关注：这是 Agent 工具链”专用化”趋势的又一个案例——通用工具（ripgrep）在 Agent 场景下不是最优解，需要专门为 Agent 的工作模式优化的工具。MCP server 一行安装的设计降低了采纳门槛。

🔗 github.com/dmtrKovalenko/fff

EveryInc/compound-engineering-plugin — 增量：+417⭐（较昨日 +251 持续加速）

[Agent框架]

Compound Engineering 插件热度持续攀升。核心理念”80% 规划+审查，20% 执行”正在被更多团队接受。

shareAI-lab/learn-claude-code — Agent Harness 工程教学 `[GitHub Search]`

[教育] [Agent框架] ⭐ 64,090

是什么：从零构建一个 Claude Code 风格的 Agent Harness 的教学项目。核心理念：“Agency 来自模型训练，Agent 产品 = 模型 + Harness。这个仓库教你造车，不教你造驾驶员。”

为什么值得关注：与 train-llm-from-scratch 和 build-your-own-x 一起，构成了”理解 AI 底层”教育浪潮的三驾马车。区别在于：后两者教模型原理，这个教的是 Agent 工程原理。64K star 说明市场对 Agent 架构知识的需求非常旺盛。

🔗 github.com/shareAI-lab/learn-claude-code

🤖 模型与推理

JetBrains 开源 Mellum2 — 12B MoE 编程模型 `[新]`

[开源模型] [代码模型]

是什么：JetBrains 在 Hugging Face 发布了 Mellum2，一个 12B 参数的 Mixture-of-Experts 编程模型。专为代码补全和代码理解优化，是 IntelliJ IDEA 等 IDE 内置 AI 功能背后的模型。

为什么值得关注：JetBrains 是 IDE 市场的巨头，其编程模型开源意味着 IDE 厂商开始从”集成闭源 API”转向”自研+开源”模式。与 GitHub Copilot（基于 OpenAI）、Cursor（多模型）形成新的竞争格局：自研模型 + 自有 IDE 的垂直整合。

🔗 huggingface.co/blog/JetBrains/mellum2-launch

NVIDIA Cosmos 3 — 首个开源物理 AI 推理行动全能模型 `[新]`

[开源模型] [物理AI]

是什么：NVIDIA 在 Hugging Face 发布 Cosmos 3，号称首个开源的物理 AI 全能模型（Omni-model）。覆盖物理世界的感知、推理和行动，面向机器人、自动驾驶等需要理解物理规律的 AI 场景。

为什么值得关注：物理 AI 是当前 AI 领域最难啃的骨头之一。与语言模型不同，物理 AI 需要理解空间、力学、因果关系等。NVIDIA 借助其 GPU+仿真平台（Omniverse）优势切入这个赛道，开源策略可能加速整个物理 AI 生态的发展。

🔗 huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

p-e-w/heretic — 全自动 LLM 审查移除工具 `[新上榜]`

[对齐] [开源工具] ⭐ +249/day

是什么：一个全自动移除语言模型审查/拒绝机制的工具。描述极其简短——“Fully automatic censorship removal for language models”。

为什么值得关注：虽然技术细节有限（README 获取失败），但 +249⭐ 说明社区对模型去审查/越狱工具的持续需求。这类工具的存在本身就是对齐领域的一个信号——无论安全训练如何加强，社区总有动力寻找绕过方式。

🔗 github.com/p-e-w/heretic

🛡️ 安全与伦理

OpenAI 发布 AI 政策与政治倡导立场

[政策] [治理]

OpenAI 发布了其 AI 政策与政治倡导的官方立场文件。这标志着主要 AI 公司首次公开其政策游说方向和优先事项。在各国加速 AI 监管立法的背景下，OpenAI 选择主动塑造而非被动应对监管环境。

🔗 openai.com/index/our-views-on-ai-policy-and-political-advocacy

Import AI 459：AI 监督的困难、蛋白质折叠缩放律、AI 灭绝风险定价

[研究] [安全]

Jack Clark 的 Import AI 第 459 期重点关注：(1) AI 监督的实际困难——即使知道要监督什么，监督本身也是昂贵的；(2) 蛋白质折叠模型的缩放律发现；(3) 尝试为 AI 系统带来的灭绝风险进行经济定价。

🔗 jack-clark.net/2026/06/01/import-ai-459/

🏭 行业动态

OpenAI 前沿模型和 Codex 正式登陆 AWS (OpenAI Blog) — OpenAI 与 AWS 的合作落地，用户可在 AWS 上直接使用 OpenAI 的前沿模型和 Codex 编码 Agent。标志着 OpenAI 从 Azure 独家走向多云策略，也说明云厂商对 AI 模型的竞争从”独家代理”转向”广泛可用”。链接
OpenAI 宣布在密歇根建设 Stargate 数据中心 (OpenAI Blog) — “Intelligence Age”基础设施扩张的最新动作，密歇根成为 Stargate 项目的最新选址。链接
Google 用 Gemini 构建 I/O 2026 (Google Blog) — Google 分享了如何使用自家 Gemini 模型辅助构建 Google I/O 2026 大会体验。AI 辅助产品开发的 eat-your-own-dogfood 案例。链接
IBM: Agent Logic 是企业 AI 规模化采用的关键 (Hugging Face Blog) — IBM Research 发文论证企业 AI 采用的瓶颈不在 LLM 本身，而在 Agent Logic——即如何让 Agent 可靠地执行多步骤业务流程。链接
TauricResearch/TradingAgents [新上榜] — 多 Agent LLM 金融交易框架，基于论文实现，提供完整的交易决策 Agent 架构。+299⭐。链接

🔮 趋势总结

1. Agent 工具链进入”专用化”阶段：fff（专用文件搜索）、impeccable（专用设计语言）、oh-my-pi（专用精确编辑）——今天上榜的新项目几乎都是为 Agent 特定工作模式深度优化的专用工具，而非通用工具的包装。这说明 Agent 生态正在从”用通用工具拼凑”向”为 Agent 量身定制”演进。

2. 开源模型版图扩张到 IDE 和物理世界：JetBrains 开源 Mellum2（IDE 编程模型）和 NVIDIA 开源 Cosmos 3（物理 AI），标志着开源模型的覆盖范围从语言/图像扩展到垂直领域。每家有自有数据和场景的厂商都在选择开源而非闭源，因为模型本身不再是护城河——场景和数据才是。

3. AI 安全的攻击面正在从模型层转移到应用层：Meta AI 社交工程漏洞证明，当 AI 被嵌入到有真实权限的产品中，自然语言本身就成了攻击向量。这比传统的 prompt injection 更危险——攻击者不需要任何技术知识，只需要会说话。OpenAI 同步发布政策立场，暗示头部公司已经意识到 AI 安全的战场正在转移。