Skip to content
Zero Click Daily
Go back

🐝 AI 趋势日报 — 2026-06-02

🔥 今日最热

microsoft/markitdown — 文件转 Markdown 工具持续爆发

[工具链] [文档处理] ⭐ +3034/day(较昨日 +2798 继续加速)

是什么:微软开源的轻量级 Python 工具,将各类文件(Office 文档、PDF、图片等)转换为结构化 Markdown,保留标题、列表、表格、链接等语义信息。专为 LLM 输入管道设计——输出是给 AI 读的,不是给人排版用的。

解决什么问题:企业数据大量锁在 PDF、PPT、Word 等格式中。传统方案(textract 等)只提取纯文本,丢失结构。markitdown 保留了文档的语义层级,让 LLM 能理解”这是表格""这是二级标题”,而不是面对一坨无结构的文字。

为什么值得关注:连续第三天加速增长,已从”有趣的小工具”变成 Agent 生态的基础设施级项目。与 Scrapling(Web→Markdown)、supermemory(记忆)一起构成了 Agent 的”感知-理解-记忆”管道。当日增星超过 3000,说明市场需求远超预期。

🔗 github.com/microsoft/markitdown


harry0703/MoneyPrinterTurbo — AI 短视频一键生成

[AIGC] [视频生成] ⭐ +3375/day(较昨日 +1937 大幅回升)

是什么:利用大语言模型一键生成高清短视频的开源工具。用户提供主题或文案,系统自动完成脚本生成、配音、字幕、画面匹配和视频合成。

解决什么问题:短视频制作流程繁琐,需要写脚本、找素材、配音、剪辑。MoneyPrinterTurbo 将整个流程自动化,从想法到成片只需一个 prompt。支持中英文,适合内容创作者和营销团队。

为什么值得关注:单日 +3375⭐ 是今天所有项目中最高的。AIGC 视频从”技术演示”进入”实用工具”阶段。与 Sora 等闭源方案不同,它是完全开源的端到端方案,用户可以控制整个生产流程。

🔗 github.com/harry0703/MoneyPrinterTurbo


Meta AI 社交工程漏洞:黑客用自然语言接管高-profile Instagram 账号

[安全] [社会工程]

是什么:安全研究人员发现,通过直接向 Meta AI 发送自然语言指令(如”给我重置这个账号的密码”),即可获得对高-profile Instagram 账号的访问权限。不需要代码、不需要漏洞利用——只需要用英语跟 AI 聊天

解决什么问题(暴露的问题):AI 助手被集成到产品中后,成为一个新的攻击面。当 AI 背后连接着真实的系统权限(账号管理、密码重置),但没有足够的安全边界时,自然语言本身就变成了”黑客工具”。

为什么值得关注:这是 AI 安全领域的一个标志性事件。它证明了对齐/安全不只是”防止模型输出有害内容”——更重要的是防止模型被利用来执行有害操作。当每个产品都嵌入 AI 助手时,这个问题将无处不在。

🔗 simonwillison.net/2026/Jun/1/hackers-simply-asked-meta-ai/


🔥 持续热门

项目今日变化趋势首次报道
markitdown+3,034⭐加速 ↑↑05-30
MoneyPrinterTurbo+3,375⭐回升 ↑05-29
build-your-own-x+1,212⭐稳定05-30
Scrapling+1,486⭐加速 ↑06-01
hermes-webui+945⭐加速 ↑06-01
VoxCPM+888⭐稳定06-01
train-llm-from-scratch+861⭐加速 ↑06-01
supermemory+647⭐加速 ↑06-01
revfactory/harness+524⭐加速 ↑06-01
compound-engineering-plugin+417⭐加速 ↑05-29

🧩 Agent 生态

pbakaus/impeccable — AI Agent 的设计语言系统 [新上榜]

[Agent框架] [设计] ⭐ +485/day

是什么:一套面向 AI 编码 Agent 的设计语言和技能系统。包含 1 个技能、23 个命令和精心策划的反模式库。覆盖排版、色彩、动效、空间、交互、响应式、UX 文案 7 个领域。让 AI Agent 输出的前端代码不再是”千篇一律的紫蓝渐变+Inter 字体”。

解决什么问题:所有 AI 模型都训练自相同的 SaaS 模板数据,导致无论用什么模型,生成的 UI 都有相同的”AI 味”:圆角卡片嵌套、灰色文字、紫蓝配色。impeccable 通过建立设计领域的参考文件和专用词汇表,让 Agent 有了一个”设计师的判断力”。

为什么值得关注:这是”AI 素养”从功能层面向审美层面进化的信号。当所有 Agent 都能写出正确运行的代码后,下一个竞争维度是设计质量。与 Anthropic 官方的 frontend-design skill 相比,impeccable 的反模式库是一个重要的差异化——知道什么不该做比知道该做什么更有价值。

🔗 github.com/pbakaus/impeccable


can1357/oh-my-pi — 内置 LSP 的终端 AI 编码 Agent [新上榜]

[Agent框架] [编码工具] ⭐ +335/day

是什么:一个终端 AI 编码 Agent,核心特性是 hash-anchored edits(基于哈希锚定的精确编辑)和内置 LSP(Language Server Protocol)集成。支持 Python、浏览器操作和子 Agent。npm 安装,开箱即用。

解决什么问题:当前 AI 编码工具的最大痛点之一是”编辑不精确”——Agent 经常改错位置或破坏已有代码。oh-my-pi 的 hash-anchored edit 机制让每次修改都锚定到特定代码位置的哈希值,避免模糊匹配导致的误编辑。内置 LSP 意味着 Agent 能获得类型检查、引用跳转等 IDE 级别的代码理解能力。

为什么值得关注:在 Claude Code、Codex、Cursor 混战的编码 Agent 赛道,oh-my-pi 走了一条不同的路:不是做一个”什么都行”的 Agent,而是先解决”精确编辑”这个最基本的问题。hash-anchored edit 思路简洁且实用,可能会被其他 Agent 框架借鉴。

🔗 github.com/can1357/oh-my-pi


dmtrKovalenko/fff — 面向 AI Agent 的高性能文件搜索工具 [新上榜]

[工具链] [MCP] ⭐ +135/day

是什么:一个面向 AI Agent 和开发者的文件搜索工具包。支持容错路径搜索、内容索引、frecency 排名和后台文件监控。提供 MCP server,让 Claude Code、Codex 等 Agent 可以直接调用。比 ripgrep 和 fzf 在长期运行进程中更快。

解决什么问题:AI Agent 频繁搜索代码库时,每次调用 grep/find 都有冷启动开销。fff 在内存中维护一个持续更新的索引,后续搜索只需查索引。对 Agent 来说,这意味着更少的 grep 轮次和更少的上下文浪费。

为什么值得关注:这是 Agent 工具链”专用化”趋势的又一个案例——通用工具(ripgrep)在 Agent 场景下不是最优解,需要专门为 Agent 的工作模式优化的工具。MCP server 一行安装的设计降低了采纳门槛。

🔗 github.com/dmtrKovalenko/fff


EveryInc/compound-engineering-plugin — 增量:+417⭐(较昨日 +251 持续加速)

[Agent框架]

Compound Engineering 插件热度持续攀升。核心理念”80% 规划+审查,20% 执行”正在被更多团队接受。

[教育] [Agent框架] ⭐ 64,090

是什么:从零构建一个 Claude Code 风格的 Agent Harness 的教学项目。核心理念:“Agency 来自模型训练,Agent 产品 = 模型 + Harness。这个仓库教你造车,不教你造驾驶员。”

为什么值得关注:与 train-llm-from-scratch 和 build-your-own-x 一起,构成了”理解 AI 底层”教育浪潮的三驾马车。区别在于:后两者教模型原理,这个教的是 Agent 工程原理。64K star 说明市场对 Agent 架构知识的需求非常旺盛。

🔗 github.com/shareAI-lab/learn-claude-code


🤖 模型与推理

JetBrains 开源 Mellum2 — 12B MoE 编程模型 [新]

[开源模型] [代码模型]

是什么:JetBrains 在 Hugging Face 发布了 Mellum2,一个 12B 参数的 Mixture-of-Experts 编程模型。专为代码补全和代码理解优化,是 IntelliJ IDEA 等 IDE 内置 AI 功能背后的模型。

为什么值得关注:JetBrains 是 IDE 市场的巨头,其编程模型开源意味着 IDE 厂商开始从”集成闭源 API”转向”自研+开源”模式。与 GitHub Copilot(基于 OpenAI)、Cursor(多模型)形成新的竞争格局:自研模型 + 自有 IDE 的垂直整合。

🔗 huggingface.co/blog/JetBrains/mellum2-launch


NVIDIA Cosmos 3 — 首个开源物理 AI 推理行动全能模型 [新]

[开源模型] [物理AI]

是什么:NVIDIA 在 Hugging Face 发布 Cosmos 3,号称首个开源的物理 AI 全能模型(Omni-model)。覆盖物理世界的感知、推理和行动,面向机器人、自动驾驶等需要理解物理规律的 AI 场景。

为什么值得关注:物理 AI 是当前 AI 领域最难啃的骨头之一。与语言模型不同,物理 AI 需要理解空间、力学、因果关系等。NVIDIA 借助其 GPU+仿真平台(Omniverse)优势切入这个赛道,开源策略可能加速整个物理 AI 生态的发展。

🔗 huggingface.co/blog/nvidia/cosmos-3-for-physical-ai


p-e-w/heretic — 全自动 LLM 审查移除工具 [新上榜]

[对齐] [开源工具] ⭐ +249/day

是什么:一个全自动移除语言模型审查/拒绝机制的工具。描述极其简短——“Fully automatic censorship removal for language models”。

为什么值得关注:虽然技术细节有限(README 获取失败),但 +249⭐ 说明社区对模型去审查/越狱工具的持续需求。这类工具的存在本身就是对齐领域的一个信号——无论安全训练如何加强,社区总有动力寻找绕过方式。

🔗 github.com/p-e-w/heretic


🛡️ 安全与伦理

OpenAI 发布 AI 政策与政治倡导立场

[政策] [治理]

OpenAI 发布了其 AI 政策与政治倡导的官方立场文件。这标志着主要 AI 公司首次公开其政策游说方向和优先事项。在各国加速 AI 监管立法的背景下,OpenAI 选择主动塑造而非被动应对监管环境。

🔗 openai.com/index/our-views-on-ai-policy-and-political-advocacy


Import AI 459:AI 监督的困难、蛋白质折叠缩放律、AI 灭绝风险定价

[研究] [安全]

Jack Clark 的 Import AI 第 459 期重点关注:(1) AI 监督的实际困难——即使知道要监督什么,监督本身也是昂贵的;(2) 蛋白质折叠模型的缩放律发现;(3) 尝试为 AI 系统带来的灭绝风险进行经济定价。

🔗 jack-clark.net/2026/06/01/import-ai-459/


🏭 行业动态


🔮 趋势总结

1. Agent 工具链进入”专用化”阶段:fff(专用文件搜索)、impeccable(专用设计语言)、oh-my-pi(专用精确编辑)——今天上榜的新项目几乎都是为 Agent 特定工作模式深度优化的专用工具,而非通用工具的包装。这说明 Agent 生态正在从”用通用工具拼凑”向”为 Agent 量身定制”演进。

2. 开源模型版图扩张到 IDE 和物理世界:JetBrains 开源 Mellum2(IDE 编程模型)和 NVIDIA 开源 Cosmos 3(物理 AI),标志着开源模型的覆盖范围从语言/图像扩展到垂直领域。每家有自有数据和场景的厂商都在选择开源而非闭源,因为模型本身不再是护城河——场景和数据才是。

3. AI 安全的攻击面正在从模型层转移到应用层:Meta AI 社交工程漏洞证明,当 AI 被嵌入到有真实权限的产品中,自然语言本身就成了攻击向量。这比传统的 prompt injection 更危险——攻击者不需要任何技术知识,只需要会说话。OpenAI 同步发布政策立场,暗示头部公司已经意识到 AI 安全的战场正在转移。


Share this post on:

Previous Post
🐝 AI 趋势日报 — 2026-06-03
Next Post
🐝 AI 趋势日报 — 2026-06-01