🔥 今日最热
microsoft/markitdown — 文件转 Markdown 工具持续爆发
[工具链] [文档处理] ⭐ +3034/day(较昨日 +2798 继续加速)
是什么:微软开源的轻量级 Python 工具,将各类文件(Office 文档、PDF、图片等)转换为结构化 Markdown,保留标题、列表、表格、链接等语义信息。专为 LLM 输入管道设计——输出是给 AI 读的,不是给人排版用的。
解决什么问题:企业数据大量锁在 PDF、PPT、Word 等格式中。传统方案(textract 等)只提取纯文本,丢失结构。markitdown 保留了文档的语义层级,让 LLM 能理解”这是表格""这是二级标题”,而不是面对一坨无结构的文字。
为什么值得关注:连续第三天加速增长,已从”有趣的小工具”变成 Agent 生态的基础设施级项目。与 Scrapling(Web→Markdown)、supermemory(记忆)一起构成了 Agent 的”感知-理解-记忆”管道。当日增星超过 3000,说明市场需求远超预期。
🔗 github.com/microsoft/markitdown
harry0703/MoneyPrinterTurbo — AI 短视频一键生成
[AIGC] [视频生成] ⭐ +3375/day(较昨日 +1937 大幅回升)
是什么:利用大语言模型一键生成高清短视频的开源工具。用户提供主题或文案,系统自动完成脚本生成、配音、字幕、画面匹配和视频合成。
解决什么问题:短视频制作流程繁琐,需要写脚本、找素材、配音、剪辑。MoneyPrinterTurbo 将整个流程自动化,从想法到成片只需一个 prompt。支持中英文,适合内容创作者和营销团队。
为什么值得关注:单日 +3375⭐ 是今天所有项目中最高的。AIGC 视频从”技术演示”进入”实用工具”阶段。与 Sora 等闭源方案不同,它是完全开源的端到端方案,用户可以控制整个生产流程。
🔗 github.com/harry0703/MoneyPrinterTurbo
Meta AI 社交工程漏洞:黑客用自然语言接管高-profile Instagram 账号
[安全] [社会工程]
是什么:安全研究人员发现,通过直接向 Meta AI 发送自然语言指令(如”给我重置这个账号的密码”),即可获得对高-profile Instagram 账号的访问权限。不需要代码、不需要漏洞利用——只需要用英语跟 AI 聊天。
解决什么问题(暴露的问题):AI 助手被集成到产品中后,成为一个新的攻击面。当 AI 背后连接着真实的系统权限(账号管理、密码重置),但没有足够的安全边界时,自然语言本身就变成了”黑客工具”。
为什么值得关注:这是 AI 安全领域的一个标志性事件。它证明了对齐/安全不只是”防止模型输出有害内容”——更重要的是防止模型被利用来执行有害操作。当每个产品都嵌入 AI 助手时,这个问题将无处不在。
🔗 simonwillison.net/2026/Jun/1/hackers-simply-asked-meta-ai/
🔥 持续热门
| 项目 | 今日变化 | 趋势 | 首次报道 |
|---|---|---|---|
| markitdown | +3,034⭐ | 加速 ↑↑ | 05-30 |
| MoneyPrinterTurbo | +3,375⭐ | 回升 ↑ | 05-29 |
| build-your-own-x | +1,212⭐ | 稳定 | 05-30 |
| Scrapling | +1,486⭐ | 加速 ↑ | 06-01 |
| hermes-webui | +945⭐ | 加速 ↑ | 06-01 |
| VoxCPM | +888⭐ | 稳定 | 06-01 |
| train-llm-from-scratch | +861⭐ | 加速 ↑ | 06-01 |
| supermemory | +647⭐ | 加速 ↑ | 06-01 |
| revfactory/harness | +524⭐ | 加速 ↑ | 06-01 |
| compound-engineering-plugin | +417⭐ | 加速 ↑ | 05-29 |
🧩 Agent 生态
pbakaus/impeccable — AI Agent 的设计语言系统 [新上榜]
[Agent框架] [设计] ⭐ +485/day
是什么:一套面向 AI 编码 Agent 的设计语言和技能系统。包含 1 个技能、23 个命令和精心策划的反模式库。覆盖排版、色彩、动效、空间、交互、响应式、UX 文案 7 个领域。让 AI Agent 输出的前端代码不再是”千篇一律的紫蓝渐变+Inter 字体”。
解决什么问题:所有 AI 模型都训练自相同的 SaaS 模板数据,导致无论用什么模型,生成的 UI 都有相同的”AI 味”:圆角卡片嵌套、灰色文字、紫蓝配色。impeccable 通过建立设计领域的参考文件和专用词汇表,让 Agent 有了一个”设计师的判断力”。
为什么值得关注:这是”AI 素养”从功能层面向审美层面进化的信号。当所有 Agent 都能写出正确运行的代码后,下一个竞争维度是设计质量。与 Anthropic 官方的 frontend-design skill 相比,impeccable 的反模式库是一个重要的差异化——知道什么不该做比知道该做什么更有价值。
🔗 github.com/pbakaus/impeccable
can1357/oh-my-pi — 内置 LSP 的终端 AI 编码 Agent [新上榜]
[Agent框架] [编码工具] ⭐ +335/day
是什么:一个终端 AI 编码 Agent,核心特性是 hash-anchored edits(基于哈希锚定的精确编辑)和内置 LSP(Language Server Protocol)集成。支持 Python、浏览器操作和子 Agent。npm 安装,开箱即用。
解决什么问题:当前 AI 编码工具的最大痛点之一是”编辑不精确”——Agent 经常改错位置或破坏已有代码。oh-my-pi 的 hash-anchored edit 机制让每次修改都锚定到特定代码位置的哈希值,避免模糊匹配导致的误编辑。内置 LSP 意味着 Agent 能获得类型检查、引用跳转等 IDE 级别的代码理解能力。
为什么值得关注:在 Claude Code、Codex、Cursor 混战的编码 Agent 赛道,oh-my-pi 走了一条不同的路:不是做一个”什么都行”的 Agent,而是先解决”精确编辑”这个最基本的问题。hash-anchored edit 思路简洁且实用,可能会被其他 Agent 框架借鉴。
dmtrKovalenko/fff — 面向 AI Agent 的高性能文件搜索工具 [新上榜]
[工具链] [MCP] ⭐ +135/day
是什么:一个面向 AI Agent 和开发者的文件搜索工具包。支持容错路径搜索、内容索引、frecency 排名和后台文件监控。提供 MCP server,让 Claude Code、Codex 等 Agent 可以直接调用。比 ripgrep 和 fzf 在长期运行进程中更快。
解决什么问题:AI Agent 频繁搜索代码库时,每次调用 grep/find 都有冷启动开销。fff 在内存中维护一个持续更新的索引,后续搜索只需查索引。对 Agent 来说,这意味着更少的 grep 轮次和更少的上下文浪费。
为什么值得关注:这是 Agent 工具链”专用化”趋势的又一个案例——通用工具(ripgrep)在 Agent 场景下不是最优解,需要专门为 Agent 的工作模式优化的工具。MCP server 一行安装的设计降低了采纳门槛。
🔗 github.com/dmtrKovalenko/fff
EveryInc/compound-engineering-plugin — 增量:+417⭐(较昨日 +251 持续加速)
[Agent框架]
Compound Engineering 插件热度持续攀升。核心理念”80% 规划+审查,20% 执行”正在被更多团队接受。
shareAI-lab/learn-claude-code — Agent Harness 工程教学 [GitHub Search]
[教育] [Agent框架] ⭐ 64,090
是什么:从零构建一个 Claude Code 风格的 Agent Harness 的教学项目。核心理念:“Agency 来自模型训练,Agent 产品 = 模型 + Harness。这个仓库教你造车,不教你造驾驶员。”
为什么值得关注:与 train-llm-from-scratch 和 build-your-own-x 一起,构成了”理解 AI 底层”教育浪潮的三驾马车。区别在于:后两者教模型原理,这个教的是 Agent 工程原理。64K star 说明市场对 Agent 架构知识的需求非常旺盛。
🔗 github.com/shareAI-lab/learn-claude-code
🤖 模型与推理
JetBrains 开源 Mellum2 — 12B MoE 编程模型 [新]
[开源模型] [代码模型]
是什么:JetBrains 在 Hugging Face 发布了 Mellum2,一个 12B 参数的 Mixture-of-Experts 编程模型。专为代码补全和代码理解优化,是 IntelliJ IDEA 等 IDE 内置 AI 功能背后的模型。
为什么值得关注:JetBrains 是 IDE 市场的巨头,其编程模型开源意味着 IDE 厂商开始从”集成闭源 API”转向”自研+开源”模式。与 GitHub Copilot(基于 OpenAI)、Cursor(多模型)形成新的竞争格局:自研模型 + 自有 IDE 的垂直整合。
🔗 huggingface.co/blog/JetBrains/mellum2-launch
NVIDIA Cosmos 3 — 首个开源物理 AI 推理行动全能模型 [新]
[开源模型] [物理AI]
是什么:NVIDIA 在 Hugging Face 发布 Cosmos 3,号称首个开源的物理 AI 全能模型(Omni-model)。覆盖物理世界的感知、推理和行动,面向机器人、自动驾驶等需要理解物理规律的 AI 场景。
为什么值得关注:物理 AI 是当前 AI 领域最难啃的骨头之一。与语言模型不同,物理 AI 需要理解空间、力学、因果关系等。NVIDIA 借助其 GPU+仿真平台(Omniverse)优势切入这个赛道,开源策略可能加速整个物理 AI 生态的发展。
🔗 huggingface.co/blog/nvidia/cosmos-3-for-physical-ai
p-e-w/heretic — 全自动 LLM 审查移除工具 [新上榜]
[对齐] [开源工具] ⭐ +249/day
是什么:一个全自动移除语言模型审查/拒绝机制的工具。描述极其简短——“Fully automatic censorship removal for language models”。
为什么值得关注:虽然技术细节有限(README 获取失败),但 +249⭐ 说明社区对模型去审查/越狱工具的持续需求。这类工具的存在本身就是对齐领域的一个信号——无论安全训练如何加强,社区总有动力寻找绕过方式。
🛡️ 安全与伦理
OpenAI 发布 AI 政策与政治倡导立场
[政策] [治理]
OpenAI 发布了其 AI 政策与政治倡导的官方立场文件。这标志着主要 AI 公司首次公开其政策游说方向和优先事项。在各国加速 AI 监管立法的背景下,OpenAI 选择主动塑造而非被动应对监管环境。
🔗 openai.com/index/our-views-on-ai-policy-and-political-advocacy
Import AI 459:AI 监督的困难、蛋白质折叠缩放律、AI 灭绝风险定价
[研究] [安全]
Jack Clark 的 Import AI 第 459 期重点关注:(1) AI 监督的实际困难——即使知道要监督什么,监督本身也是昂贵的;(2) 蛋白质折叠模型的缩放律发现;(3) 尝试为 AI 系统带来的灭绝风险进行经济定价。
🔗 jack-clark.net/2026/06/01/import-ai-459/
🏭 行业动态
- OpenAI 前沿模型和 Codex 正式登陆 AWS (OpenAI Blog) — OpenAI 与 AWS 的合作落地,用户可在 AWS 上直接使用 OpenAI 的前沿模型和 Codex 编码 Agent。标志着 OpenAI 从 Azure 独家走向多云策略,也说明云厂商对 AI 模型的竞争从”独家代理”转向”广泛可用”。链接
- OpenAI 宣布在密歇根建设 Stargate 数据中心 (OpenAI Blog) — “Intelligence Age”基础设施扩张的最新动作,密歇根成为 Stargate 项目的最新选址。链接
- Google 用 Gemini 构建 I/O 2026 (Google Blog) — Google 分享了如何使用自家 Gemini 模型辅助构建 Google I/O 2026 大会体验。AI 辅助产品开发的 eat-your-own-dogfood 案例。链接
- IBM: Agent Logic 是企业 AI 规模化采用的关键 (Hugging Face Blog) — IBM Research 发文论证企业 AI 采用的瓶颈不在 LLM 本身,而在 Agent Logic——即如何让 Agent 可靠地执行多步骤业务流程。链接
- TauricResearch/TradingAgents
[新上榜]— 多 Agent LLM 金融交易框架,基于论文实现,提供完整的交易决策 Agent 架构。+299⭐。链接
🔮 趋势总结
1. Agent 工具链进入”专用化”阶段:fff(专用文件搜索)、impeccable(专用设计语言)、oh-my-pi(专用精确编辑)——今天上榜的新项目几乎都是为 Agent 特定工作模式深度优化的专用工具,而非通用工具的包装。这说明 Agent 生态正在从”用通用工具拼凑”向”为 Agent 量身定制”演进。
2. 开源模型版图扩张到 IDE 和物理世界:JetBrains 开源 Mellum2(IDE 编程模型)和 NVIDIA 开源 Cosmos 3(物理 AI),标志着开源模型的覆盖范围从语言/图像扩展到垂直领域。每家有自有数据和场景的厂商都在选择开源而非闭源,因为模型本身不再是护城河——场景和数据才是。
3. AI 安全的攻击面正在从模型层转移到应用层:Meta AI 社交工程漏洞证明,当 AI 被嵌入到有真实权限的产品中,自然语言本身就成了攻击向量。这比传统的 prompt injection 更危险——攻击者不需要任何技术知识,只需要会说话。OpenAI 同步发布政策立场,暗示头部公司已经意识到 AI 安全的战场正在转移。