Agent Skills & Harness 生态爆发
整个 AI 编程 Agent 的”skills/plugin”层在本周迎来井喷。从 Anthropic 官方插件目录、Karpathy 风格的 Claude Code 指南,到预索引代码知识图谱,开发者正在为 AI Agent 构建一个类似 npm/Pip 的可复用技能生态。
Anthropic 官方 Claude Code 插件目录 [Agent框架] +682⭐/day
Anthropic 发布了官方管理的 Claude Code 插件目录。这是 Anthropic 首次以官方身份介入 Agent 插件生态,提供经审核的高质量插件集合。README 明确提示用户在安装前确认插件可信度,暗示 Anthropic 对第三方插件的安全性持审慎态度。此举意味着 Claude Code 正从一个”工具”向”平台”演进——拥有自己的插件生态是平台化的关键标志。
CodeGraph:为 Agent 预索引的代码知识图谱 [开发者工具] +4294⭐/day 🔥
今日 GitHub Trending 最猛项目,一天涨星超 4000。CodeGraph 为 Claude Code、Codex、Cursor、OpenCode 等 Agent 提供预索引的代码知识图谱,声称能减少约 35% 的 token 消耗和上下文浪费。核心思路是:与其让 Agent 每次都从零阅读整个代码库,不如提前将代码结构、依赖关系和语义信息构建成图谱,Agent 查询图谱即可理解代码。这是 Agent 基础设施从”裸跑”向”有状态、有索引”演进的典型信号。
Karpathy 风格 Claude Code 指南 [Agent框架] +2614⭐/day
源自 Andrej Karpathy 多年编程观察的一套 Claude Code 行为准则,浓缩在一个 CLAUDE.md 文件中。项目来自 Multica AI 团队,他们将 Karpathy 的编码哲学——从代码组织到调试策略——转化为可被 Claude Code 直接加载的 skills 文件。这反映了社区的一个重要趋势:编程经验正在被系统化地编码为 Agent 可消费的”技能”。
Superpowers:Agent 软件开发方法论框架 [Agent框架] +1576⭐/day
一个完整的 Agent 软件开发方法论框架,将软件开发流程拆解为可组合的 skills 集合。不同于单一的提示词模板,Superpowers 定义了一套从需求分析到代码交付的完整工作流,每个阶段都有对应的 Agent skill。这代表 Agent 开发从”给 Agent 一个好 prompt”进化到”给 Agent 一套完整的方法论”。
ECC:Agent Harness 性能优化系统 [Agent框架] ⭐188K
持续霸榜的 Agent 性能优化系统(182K+ stars),支持 Claude Code、Codex、Opencode、Cursor 等主流 harness。ECC 的核心理念是”Agent 的能力来自模型,但 Agent 产品需要 harness 来承载”。它提供 skills、instincts(本能反应)、memory、security 和 research-first 开发模式。多语言支持覆盖中文、日文、韩文等 10 种语言,反映出 Agent 工具的全球化需求。
Learn Claude Code:从零构建 Agent Harness [Agent框架] ⭐61K
从零构建一个类 Claude Code 的 nano agent harness 的教育项目。核心理念清晰:“Agency 来自模型训练,不来自外部代码编排。但一个 Agent 产品 = 模型 + Harness。模型是驾驶员,Harness 是车辆。” 这个项目教的是如何造车,而非如何驾驶。对理解 Agent 架构设计极具参考价值。
Ruflo:Claude Code 多 Agent 编排平台 [Agent框架] ⭐53K
Ruflo(前身 Claude Flow)为 Claude Code 添加了”神经系统”:Agent 自动组织成 swarm、从每次任务中学习、跨会话记忆,并通过 federation 在不同机器间安全通信。底层使用 Rust 引擎驱动嵌入、记忆和插件系统。它代表了 Agent 从单机工作向分布式协作演进的路径。
Academic Research Skills:学术研究全流程 [Agent框架] +2579⭐/day
为 Claude Code 打造的学术研究技能套件,覆盖”研究→写作→审稿→修改→定稿”全流程。在 Agent Skills 赛道中,这是一个垂直化深耕的典型案例——不是泛化的编程助手,而是专为学术场景设计的专业工具。
.NET 官方 Agent Skills [Agent框架] +129⭐/day
微软 .NET 团队发布的官方 Agent Skills 仓库,专门辅助 AI 编程 Agent 处理 .NET 和 C# 开发。大厂开始为自己的技术栈维护 Agent skills,说明 Agent Skills 已经不再是社区实验,而是主流开发工具链的一部分。
本地推理 & 开源模型
本周本地推理社区热闹非凡:Qwen 3.7 发布、Qwen 3.6 刷出 110 tok/s 高速推理、腾讯推出 Hy 多语言翻译模型,还有 Heretic 与 Meta 的法律纠纷引发广泛讨论。
Qwen 3.7 发布:“新王已至” [开源模型] Reddit 291↑ 103评论
Qwen 团队发布 3.7 版本,LocalLLaMA 社区用”新王已至”来形容。帖子标题本身就暗示了社区对 Qwen 3.7 在开源模型中的统治力预期。103 条评论中讨论集中于开放权重何时可用、与 3.6 的对比、以及基准测试结果。Qwen 系列正在成为开源 LLM 社区的标杆。
Qwen 3.6 35B:110 tok/s + 12GB VRAM [推理优化] Reddit 258↑ 91评论
在 RTX 4070 Super 12GB 显存上,使用 ik_llama.cpp 推理引擎跑 Qwen3.6 35B A3B 达到 110 tok/s。作者发现 llama.cpp 合并 MTP PR 后性能反而下降,转而使用 ik_llama.cpp 获得了显著提升。这个帖子展示了开源推理引擎的激烈竞争——llama.cpp 不再是唯一选择,ik_llama.cpp 等替代方案在特定场景下表现出色。
Qwen 3.6 35B 改变了我的工作流 [开源模型] Reddit 159↑ 38评论
用户分享了用 Qwen3.6 35B A3B 替代云端模型的工作流:先用 Codex 完成任务并记录为 skill,再喂给本地 pi 运行。从 VPS 运维到 PDF 转 EPUB,任务越复杂越能体现”skill + 本地模型”组合的价值。这代表了个人开发者从依赖 API 向”技能积累 + 本地执行”迁移的实际案例。
腾讯 Hy 多语言翻译模型:1.8B/7B/30B [开源模型] Reddit 74↑ 22评论
腾讯发布 Hy-MT2 系列多语言翻译模型,支持 33 种语言互译。三个尺寸(1.8B、7B、30B-A3B MoE)覆盖从端侧到服务器的部署需求。亮点在于 1.8B 模型经 AngelSlim 1.25-bit 极端量化后仅需 440MB 存储,推理速度提升 1.5 倍——这意味着高质量翻译可以跑在手机上。
Equinox-31B:Gemma 31B 微调 [开源模型] Reddit 79↑
LatitudeGames 基于 Gemma 31B 的微调模型,取名 Equinox 寓意”极端之间的平衡”。社区持续在基础模型上进行微调优化,游戏公司的参与也说明 LLM 正在渗透到非传统 AI 行业。
Heretic 与 Meta 法律纠纷:开源 LLM 的法律边界 [社区热点] Reddit 1516↑ 234评论 🔥
开源项目 Heretic 收到 Meta 的法律通知,成为本周 LocalLLaMA 最热帖(1516 分)。234 条评论反映了开源社区对大公司法律手段的强烈反应。这个事件的背景是:围绕开源 LLM 的模型权重使用、衍生作品权利、以及大厂对社区项目的法律威慑,正在形成新的博弈格局。
Forge:本地 LLM 的可靠工具调用框架 [推理优化] +398⭐/day
一个为自托管 LLM 提供可靠 tool-calling 能力的 Python 框架。核心卖点是能把 8B 级别的本地模型在多步骤 Agent 工作流上提升到接近大模型的表现水平。这对没有 API 预算的开发者极具吸引力——不需要 GPT-4 级别的模型也能做 Agent。
llama.cpp Prompt Processing 修复 PR [推理优化] Reddit 75↑ 27评论
llama.cpp 的一个 PR 修复了 OpenCode/Pi 使用时持续的 prompt processing 问题。对本地推理用户来说,prompt processing 卡顿是日常痛点,这个修复直接影响使用体验。
Google Gemini 3.5 & I/O 2026
Google 本周是绝对主角——I/O 2026 发布 100 项公告,Gemini 3.5 Flash 在 Agent 基准测试中登顶,社区热议 Gemini 3.5 Pro 即将登场。
Gemini 3.5 Flash 刷榜 APEX-Agents-AA 基准 [开源模型] Reddit 107↑ 28评论
Gemini 3.5 Flash 在 APEX-Agents-AA Agent 基准上排名第一,超越体量大得多的模型。Flash 级别模型在 Agent 场景中打败旗舰模型,意味着推理成本和速度不再是 Agent 部署的瓶颈。对开发者来说,一个便宜、快速、还能在 Agent 任务上表现顶尖的模型,是真正的生产力工具。
Gemini 3.5 Flash vs 全部对手 [开源模型] Reddit 636↑ 200评论
社区将 Gemini 3.5 Flash 与 Claude、Grok、ChatGPT 等对手做同题对比测试。200 条评论反映了用户对”Flash 级别能否替代旗舰”的激烈辩论。Google 在性价比赛道上正在建立壁垒。
Gemini 3.5 Pro 即将登场 [开源模型] Reddit 176↑ 86评论
Gemini 3.5 Pro 的泄露基准测试开始流传,社区对”Google is cooking”充满期待。如果 Flash 已经在 Agent 基准上登顶,Pro 的表现将定义新的天花板。
Google I/O 2026:100 项公告 [行业动态]
Google I/O 2026 发布了 100 项公告,涵盖 Gemini 模型更新、Google Beam 群组会议实验、Asset Studio AI 创意工具、Search 广告新形态等。Google 正在将 AI 深度嵌入其全部产品线。
Google DeepMind 亚太加速器计划 [行业动态]
DeepMind 在亚太地区启动加速器计划,聚焦环境风险。AI for Good 的实践正在从论文走向落地项目。
AI 数学推理里程碑
OpenAI 推理模型推翻 Erdős 离散几何猜想 [AI研究] Reddit r/artificial 461↑ 208评论 | r/MachineLearning 88↑ 29评论
OpenAI 宣布其通用推理模型找到了一个反例,推翻了 Erdős 平面单位距离问题中 n^{1+O(1/log log n)} 上界的猜想。这个猜想已有 80 年历史。推理成本不到 1000 美元。这意味着:
- AI 推理能力达到了数学研究的前沿——不是辅助计算,而是独立发现反例
- 成本极低——不到 1000 美元的推理成本就能攻克一个 80 年的数学问题,远低于传统数学研究的人力成本
- 社区反应两极分化:r/MachineLearning 上有用户质疑证明的严谨性(88 分但讨论质量高),r/artificial 上更多是惊叹(461 分)
Latent Space 的 AI News 栏目也专门报道了此事,标题直接点出”under $1000”。这可能是 AI 在纯数学领域最有影响力的成果之一。
开发者工具 & Agent 基础设施
Datasette Agent [开发者工具] — Simon Willison
Simon Willison 在一天内连续发布了 Datasette Agent 的多个版本(0.1a1 到 0.1a3),以及配套的 datasette-agent-charts 和 datasette-agent-sprites 插件。Datasette Agent 让用户可以用自然语言与数据库交互,自动生成查询和可视化。Willison 的”快速迭代、小步发布”风格值得学习——一天内从 alpha 到功能完整。
Chrome DevTools MCP [开发者工具] +151⭐/day
Chrome DevTools 官方推出的 MCP 服务器,让 Claude、Cursor、Copilot 等 Agent 可以直接操控浏览器开发工具。Agent 可以检查 DOM、分析网络请求、调试 JavaScript——这意味着 Agent 不仅能写代码,还能自己测试和调试前端了。
CLI-Anything:让所有软件 Agent-Native [开发者工具] +656⭐/day
香港大学团队的项目,目标是让所有软件都变成 Agent 可操作的 CLI 接口。核心理念:Agent 操控软件的最佳方式不是 GUI 也不是 API,而是 CLI。通过为现有软件自动生成 CLI 封装,让 Agent 可以操作任何应用。
Daytona:给 Agent 计算机 [Agent基础设施] — Latent Space 专访
Latent Space 采访了 Daytona 的 Ivan Burazin,讨论”给 Agent 一台完整的计算机”的理念。Daytona 提供安全沙箱化的开发环境让 Agent 执行任务。这代表了 Agent 基础设施从”API 调用”向”完整计算环境”的升级。
NotebookLM Python API [开发者工具] +186⭐/day
Google NotebookLM 的非官方 Python API 和 Agent Skill,提供对 NotebookLM 全功能的编程访问。让开发者可以将 NotebookLM 的音频摘要、笔记生成等能力集成到自己的工作流中。
oh-my-pi:终端 AI 编程 Agent [开发者工具] +500⭐/day
一个内置 IDE 集成的终端编程 Agent,支持 hash-anchored edits、LSP、Python 和浏览器集成。名字致敬 oh-my-zsh,定位是”给终端开发者的 AI 编程伴侣”。
Understand Anything:交互式知识图谱 [开发者工具] +666⭐/day
将任何代码库或文档转化为交互式知识图谱。“Graphs that teach > graphs that impress”的口号很到位——不追求炫酷可视化,而是注重帮助人理解复杂系统。
行业动态 & 社区热点
Musk 败诉 Altman:OpenAI 审判落幕 [行业动态] Reddit 1503↑ 257评论
经过 3 周审判,Elon Musk 在与 Sam Altman 和 OpenAI 的诉讼中败诉。这是 AI 行业近年来最受关注的法律纠纷之一——Musk 声称 OpenAI 背离了非营利初衷,但法院最终未支持其主张。257 条评论反映了社区对 OpenAI 未来走向的高度关注。
Zuckerberg AI 裁员录音泄露 [行业动态] Reddit 119↑ 44评论
泄露的录音显示 Zuckerberg 在内部讲话中预告大规模 AI 驱动的裁员。这可能是 AI 替代白领工作的最大规模案例之一,44 条评论中的讨论集中在”AI 替代的边界在哪里”。
“程序员的推文应验了” [社区热点] Reddit 4046↑ 🔥
ChatGPT 社区今日最高分帖子(4046 分)。内容是关于”程序员没有消失,只是变成了全职 AI 保姆”的梗图。评论区金句:“half my workflow now is codex writing code, cursor autocomplete fighting for its life… turns out the hardest problem in software engineering was getting humans to explain what they actually want.” 这条帖子的病毒式传播反映了开发者对 AI 辅助编程的真实体感——工具越来越强,但人类沟通需求的能力才是真正的瓶颈。
“2030 年的程序员” [社区热点] Reddit 2558↑ 111评论
用户分享自己几乎全部工作流都已用 AI Agent 替代:Cursor 处理后端、Codex 写逻辑、Runable 做 UI 组件。关键洞察:“我有技术背景,理解底层在发生什么,但速度太让人上瘾了。” 111 条评论中讨论了”AI 辅助但理解底层”与”盲目依赖 AI”之间的界限。
毕业典礼 AI 念错名字引发嘘声 [社区热点] Reddit 109↑ 21评论
大学毕业典礼使用 AI 系统朗读毕业生名字,结果漏掉了数百人,现场嘘声一片。这是 AI 部署失败的典型案例——在需要精确性和人情味的场景中,AI 的”接近但不够好”比完全不用更糟糕。
“我和 ChatGPT 聊天因为身边没有在乎我的人” [社会影响] Reddit 231↑ 77评论
用户坦承将 ChatGPT 作为情感支持和问责伙伴。这条帖子的 77 条评论中,许多人分享了类似经历。这指向一个深刻的社会现实:AI 正在填补人类社交的空缺,这既是技术能力的证明,也是社会问题的映射。
DEEP Robotics LynxS10:20kg 四足机器人 [机器人] Reddit 153↑ 50评论
DEEP Robotics 新发布的 LynxS10 仅 20kg,可单手举起,能翻身后恢复、侧翻等高难度动作。轻量化和运动能力的结合让四足机器人从实验室走向实际部署又近了一步。
AI 对齐失误如何开始 [AI安全] Reddit 78↑ 13评论
一张梗图引发的对 AI 对齐问题的讨论。78 分说明社区对 AI 安全话题的关注度在持续上升。
博客简报
| 标题 | 来源 | 日期 |
|---|---|---|
| AdventHealth advances whole-person care with OpenAI | OpenAI Blog | 2026-05-21 |
| datasette-agent-charts 0.1a1 | Simon Willison | 2026-05-20 |
| datasette-agent 0.1a2 | Simon Willison | 2026-05-15 |
| datasette-agent 0.1a1 | Simon Willison | 2026-05-14 |
| Google Play 开发者更新 | Google AI Blog | 2026-05-21 |
| Gemini 辅助工具帮助残障学生 | Google AI Blog | 2026-05-21 |
| 德州能源影响基金首批受助者 | Google AI Blog | 2026-05-21 |
| Google 合作美国足球协会 | Google AI Blog | 2026-05-21 |
| 密苏里州社区投资 | Google AI Blog | 2026-05-20 |
| Google Beam 群组会议实验 | Google AI Blog | 2026-05-20 |
| YouTube Demand Gen 更新 | Google AI Blog | 2026-05-20 |
| Asset Studio AI 创意工具 | Google AI Blog | 2026-05-20 |
| Universal Commerce Protocol | Google AI Blog | 2026-05-20 |
| AI 时代 Search 广告新形态 | Google AI Blog | 2026-05-20 |
| Google Marketing Live 2026 | Google AI Blog | 2026-05-20 |
| Meridian + Analytics 360 统一衡量 | Google AI Blog | 2026-05-20 |
| Ask Advisor:AI 协作伙伴 | Google AI Blog | 2026-05-20 |
趋势总结
Agent Skills 生态正式成型:从 Anthropic 官方插件目录到 CodeGraph 的代码知识图谱,再到 Karpathy 风格的编码准则,AI 编程 Agent 的”技能层”正在快速标准化。这不再是零散的 prompt 技巧分享,而是有结构、有索引、有版本管理的专业工具链。
本地推理进入实用阶段:Qwen 3.6 在消费级显卡上跑出 110 tok/s、腾讯 Hy 翻译模型量化到 440MB 可部署在手机——开源模型不再是”够用”的替代品,而是在特定场景下超越了闭源 API 的性价比。配合 Forge 这样的本地 Agent 框架,“全栈本地 AI”的愿景正在变为现实。
AI 数学推理的里程碑时刻:OpenAI 用不到 1000 美元的推理成本推翻了 80 年的 Erdős 猜想。这不是辅助工具的胜利,而是 AI 作为独立研究者的突破。当 AI 能在纯数学领域做出原创贡献,它在其他需要深度推理的领域的潜力将重新被评估。