Zero Click Daily

🐝 AI 趋势日报 — 2026-05-07

7 May, 2026

🐝 AI 趋势日报 — 2026-05-07

一、Agent 框架

affaan-m/everything-claude-code — 17.5万星的现象级增长

是什么：AI Agent 的”性能调优系统”，覆盖 Claude Code、Codex、OpenCode、Cursor 等主流编码 Agent 的 Skills、Instincts、Memory、Security 等维度，支持 12+ 编程语言生态。
解决什么问题：AI 编码 Agent 的潜力很大，但开箱即用的表现往往不够好。这个项目提供了系统性优化 Agent 行为的方案——从 prompt 工程、工具调用到记忆管理——让开发者不再”手调”每个 Agent。
为什么值得关注：17.5万星绝非偶然。它折射出一个趋势：Agent 开发已经从”能不能跑”进入”怎么优化”的阶段。Agent 工程化（Harness Engineering）正在成为新的细分领域，这和 shareAI-lab 的 learn-claude-code（5.8万星）形成了呼应。

NousResearch/hermes-agent — 13.7万星

是什么：Nous Research 出品的自改进 AI Agent，具备内置学习能力、技能系统、多平台支持（CLI/Telegram/Discord）。
解决什么问题：传统 Agent 是静态的，Hermes Agent 能够在运行中学习并记住用户偏好，通过 Skills 系统实现可复用的任务流程。让 AI 助手真正”越用越顺手”。
为什么值得关注：Hermes Team 将在 r/LocalLLaMA 举办 AMA（见社区部分），社区关注度极高。自改进 Agent 代表了一个重要方向：Agent 不再是黑盒工具，而是能与用户共同进化的伙伴。

Significant-Gravitas/AutoGPT — 18.4万星

是什么：AI Agent 领域的先驱项目，提供构建、部署和运行 AI Agent 的平台，目标是让每个人都能使用和构建 AI。
解决什么问题：降低 AI Agent 的准入门槛，提供从原型到生产的完整工具链。
为什么值得关注：尽管经历了热度降温，AutoGPT 仍然保持着极高的社区活跃度和迭代节奏。其”accessible AI for everyone”的理念在 Agent 民主化进程中持续发挥影响力。

langgenius/dify — 14万星，定位转向”Agentic Workflow”

是什么：AI 应用开发平台，定位更新为”Production-ready platform for agentic workflow development”（生产级 Agent 工作流开发平台）。
解决什么问题：让开发者通过可视化编排快速构建基于 LLM 的 Agent 应用和自动化工作流，降低 AI 应用开发成本。
为什么值得关注：Dify 重新定位表明 Agent 工作流正在从实验走向生产环境。“Agentic Workflow”是 2026 年的关键词——企业不再满足于单次对话，而是需要可靠的多步骤 Agent 流水线。

zhayujie/CowAgent — 4.4万星

是什么：基于大模型的超级 AI 助理，支持主动思考、任务规划、操作系统访问、多平台接入（微信/飞书/钉钉/QQ/公众号等），支持 DeepSeek/OpenAI/Claude 等多模型切换。
解决什么问题：一个 Agent 统一接入所有 IM 平台，具备长期记忆和知识库，能自主成长。中文社区的”微信版 Agent”需求巨大。
为什么值得关注：4.4万星说明中文社区的 Agent 需求极其旺盛。CowAgent 覆盖了中国用户最常用的 IM 生态，是 AI Agent 在中国落地的最佳案例之一。

anthropics/financial-services — 今日 1367 stars ⭐

是什么：Anthropic 官方发布的金融服务 Agent 参考实现，涵盖投行、股权研究、私募股权、财富管理等场景。同时支持 Claude Cowork 插件和 Managed Agents API 两种部署方式。
解决什么问题：金融行业的高合规要求使 AI 落地门槛极高。这个项目提供了”分析工作草稿→人工审核”的安全流程模板，并内置了行业最佳实践。
为什么值得关注：Anthropic 亲自下场做行业垂直 Agent，这是重大信号。金融服务只是第一站——可以预期医疗、法律、审计等领域都会陆续出现类似的官方 Agent 模板。Agent 的”行业化”时代来了。

addyosmani/agent-skills — 今日 3058 stars ⭐

是什么：为 AI 编码 Agent 设计的生产级工程技能集合，覆盖 DEFINE→PLAN→BUILD→VERIFY→REVIEW→SHIP 全生命周期。
解决什么问题：Senior Engineer 的经验和最佳实践很难被 Junior 开发者继承。这个项目将这些经验编码为 Agent Skills，让 AI 编码工具在执行每个阶段时自动遵循最佳实践。
为什么值得关注：和 Hermes Agent 的 Skills 系统理念完全一致。Agent Skills 正在成为”可复用的工程智慧”的标准格式。3K+ 日星说明开发者迫切需要 Agent 工程化的指导。

vercel-labs/open-agents — 今日 406 stars

是什么：Vercel 出品的开源云 Agent 模板，支持在 Vercel 上构建和运行后台编码 Agent。核心设计理念：Agent ≠ Sandbox，Agent 运行在沙箱之外，通过工具与沙箱交互。
解决什么问题：Agent 的部署和运维仍然复杂。Open Agents 提供了一套完整的前端 + Agent 运行时 + 沙箱编排 + GitHub 集成的参考实现。
为什么值得关注：Vercel 押注 Agent 即服务。关键设计理念”Agent 与执行环境分离”正在成为 Agent 架构的主流模式。

aaif-goose/goose — 今日 111 stars

是什么：开源 AI Agent，已从 block/goose 迁移到 Linux 基金会下的 Agentic AI Foundation（AAIF）。支持桌面应用、CLI 和 API。
解决什么问题：提供超越代码建议的完整 Agent 能力——安装、执行、编辑、测试，支持任意 LLM。
为什么值得关注：迁移到 Linux 基金会是重大事件——Goose 正在从个人项目升级为行业标准。基金会治理模式可能是 Agent 生态走向长期可持续发展的关键路径。

CherryHQ/cherry-studio — 4.5万星

是什么：AI 生产力工作室，集成了智能聊天、自主 Agent、300+ 助手，支持接入前沿 LLM。
解决什么问题：一站式 AI 工具聚合。用户不再需要打开七八个不同的 AI 工具，Cherry Studio 提供了统一的交互界面和 Agent 调度能力。
为什么值得关注：300+ 助手的生态说明了 Agent 生态正在从”通用助手”向”垂直技能助手”分化。这和 Hermes Agent 的 Skills 系统、addyosmani/agent-skills 的理念一致。

二、推理优化

z-lab/dflash — 今日 654 stars

是什么：轻量级 Block Diffusion 模型，用于投机解码（Speculative Decoding），支持 Gemma-4、Qwen3.6 等主流模型。
解决什么问题：LLM 推理速度是生产部署的核心瓶颈。投机解码通过小模型”草拟”、大模型”验证”的方式显著加速推理。DFlash 的 Block Diffusion 方法比传统方法更高效。
为什么值得关注：z-lab 连续发布 ParoQuant（量化）和 DFlash（投机解码）两个重磅工作，说明推理优化正在成为 AI Infra 的核心战场。谁能在不损失质量的前提下让推理更快更便宜，谁就掌握了 AI 落地的命脉。

PriorLabs/TabPFN — 今日 233 stars

是什么：表格数据的 Foundation Model。基于 Prior-Data Fitted Networks，通过单次前向传播即可完成分类和回归。
解决什么问题：传统表格数据建模需要特征工程、模型选择、超参调优等复杂流程。TabPFN 将这一切简化为一次前向传播——零训练，直接预测。
为什么值得关注：Transformer 架构正在从 NLP/CV 渗透到传统表格数据领域。TabPFN 代表了”基础模型+表格数据”的前沿方向，对金融、医疗等结构化数据密集的行业意义重大。

Qwen3.6-27B 加速：50 t/s 实战分享

是什么：社区用户分享在 3090 上通过 MTP GGUF + llama.cpp 特定 PR 实现 Qwen3.6-27B 100K 上下文下 50 tokens/s 的推理速度。
解决什么问题：27B 模型在单张 3090（24GB）上运行 100K 上下文通常很慢。这篇分享提供了具体的加速配置方案。
为什么值得关注：评分 127，47 条评论。50 tokens/s on 3090 对于 27B 模型 + 100K 上下文是非常不错的成绩。MTP 技术进步正在让本地推理体验逼近云端。
🔗 https://reddit.com/r/LocalLLaMA/comments/1t5tnzl/get_faster_qwen_36_27b/

ParoQuant：Pairwise Rotation Quantization

是什么：z-lab 的另一项工作——成对旋转量化方法，用于高效的推理 LLM。
解决什么问题：传统量化方法会导致推理模型（reasoning model）的质量显著下降，因为推理模型对精度更敏感。ParoQuant 通过新的旋转量化策略解决了这个问题。
为什么值得关注：评分 74，24 条评论。推理模型（如 DeepSeek-R1 系列）的量化一直是难题。ParoQuant 与 DFlash 一起形成了 z-lab 的推理优化双引擎。
🔗 https://reddit.com/r/LocalLLaMA/comments/1t5x5s0/paroquant_pairwise_rotation_quantization_for/

Subquadratic 声称突破 LLM 扩展极限——1000x 成本降低

是什么：由前 DeepMind 和 Meta 工程师创立的 Subquadratic 公司，声称开发出能将处理成本降低 1000 倍的新架构。
解决什么问题：当前 LLM 面临扩展墙——输入数据翻倍会导致计算成本指数级爆炸。Subquadratic 声称解决了这个根本效率问题。
为什么值得关注：评分 284，93 条评论。1000x 成本降低的说法极为激进。需要警惕的是目前只有 Early Access 表格，没有论文也没有开源代码——但如果是真的，将彻底改变 AI 产业格局。
🔗 https://reddit.com/r/singularity/comments/1t64dhj/subquadratic_claims_to_break_llm_scaling_limits/

三、开源模型

ollama/ollama — 17万星，描述更新为支持 Kimi-K2.5、GLM-5、MiniMax

是什么：本地运行开源大模型的事实标准工具，支持 macOS/Windows/Linux/Docker 一键部署。最新描述中新增了对 Kimi-K2.5、GLM-5、MiniMax 等新模型的支持。
解决什么问题：让普通用户无需 GPU、不折腾配置，就能在本地运行和测试最新的开源大模型。是开源模型生态的”入口”。
为什么值得关注：Ollama 描述更新所支持的新模型，侧面反映了当前开源模型的热点——Kimi K2.5（Moonshot AI）、GLM-5（智谱）、MiniMax 都在加速迭代。Ollama 正在成为模型发布的标配渠道。

ZAYA1-8B：前沿智能密度，AMD 训练 💡

是什么：Zyphra 发布的 8B 参数模型，宣称在智能密度上达到前沿水平，且完全使用 AMD GPU 训练。
解决什么问题：8B 参数要在能力上匹敌更大模型，需要极高的”智能密度”。AMD 训练的成功验证了 AMD ROCm 生态的成熟度——NVIDIA 不再是唯一选择。
为什么值得关注：评分 320，96 条评论，热度很高。“智能密度”是 2026 年的核心趋势——不是模型越大越好，而是单位参数能产出多少智能。AMD 训练的里程碑意义在于打破 NVIDIA 在 AI 训练领域的垄断。
🔗 https://reddit.com/r/LocalLLaMA/comments/1t5nll0/zaya18b_frontier_intelligence_density_trained_on/

Best Local LLMs - Apr 2026 月度讨论 🏆

是什么：r/LocalLLaMA 例行月度最佳本地 LLM 讨论帖。本期焦点：Qwen3.5/Gemma4 系列、GLM-5.1 SOTA、MiniMax-M2.7（“accessible Sonnet at home”）、PrismML Bonsai 1-bit 模型。
解决什么问题：社区每月汇总最佳本地模型推荐，帮助用户在海量模型中做出选择。
为什么值得关注：评分 485，328 条评论——本地模型社区的强烈信号。Key highlights：GLM-5.1 被称为 SOTA 级别、MiniMax-M2.7 被比作”家庭版 Sonnet”、1-bit 模型正在走向实用。
🔗 https://reddit.com/r/LocalLLaMA/comments/1sknx6n/best_local_llms_apr_2026/

Qwen3.6-27B uncensored heretic v2 — Native MTP 保留版

是什么：社区修改版 Qwen3.6-27B，去除审查限制，完整保留原生 MTP（Multi-Token Prediction）能力，KLD 0.0021，仅 6/100 拒绝率。提供 Safetensors、GGUF、NVFP4 三种格式。
解决什么问题：开源模型通常带有内容审查，某些场景（创意写作、角色扮演）需要无审查版本。同时保留了 MTP 能力（对推理速度至关重要）。
为什么值得关注：评分 251，64 条评论，热度不俗。MTP 保留是技术亮点——很多 uncensored 版本会破坏 MTP 权重导致推理变慢，而这个版本保留了完整的 15 个 MTP。
🔗 https://reddit.com/r/LocalLLaMA/comments/1t5yajb/qwen36_27b_uncensored_heretic_v2_native_mtp/

rasbt/LLMs-from-scratch — 9.2万星

是什么：Sebastian Raschka 的书《Build a Large Language Model (From Scratch)》配套代码仓库，从零实现 GPT 类 LLM。
解决什么问题：让开发者深入理解 LLM 的内部工作原理——预训练、微调、推理——通过亲自编码而非黑盒使用。
为什么值得关注：在 LLM 能力不断突破的今天，理解底层原理变得更加重要。这本书和该仓库是 AI 领域最受认可的学习资源之一。

四、工具链

decolua/9router — 今日 130 stars

是什么：免费的 AI 路由器 & Token 节省器，连接 Claude Code、Cursor、Copilot 等编码工具到 40+ 供应商、100+ 模型，支持自动故障转移 + RTK（Real-Time Knowledge）节省 20-40% Token。
解决什么问题：AI 编码工具的 API 费用和速率限制是开发者的日常痛点。9Router 通过智能路由和 Token 优化让开发者不再被限速或高账单困扰。
为什么值得关注：AI 工具的”中间件层”正在兴起。不是模型本身，而是让模型更便宜、更稳定地服务的能力，正在成为新的竞争焦点。

VectifyAI/PageIndex — 今日 953 stars

是什么：“无向量、基于推理”的 RAG 系统——不需要向量数据库、不需要 Chunking，直接基于文档索引进行类人检索。
解决什么问题：传统 RAG 的痛点——Chunking 策略难以确定、向量检索丢失上下文、高频 token 消耗。PageIndex 通过推理而非向量检索来解决这些问题。
为什么值得关注：“Vectorless RAG”是一个颠覆性概念。如果它真如所说那样有效，可能改写 RAG 的技术路线。953 的日星表明社区非常好奇。

InsForge/InsForge — 今日 459 stars

是什么：Postgres 为基础的全栈后端平台，内置认证、存储、计算、托管和 AI 网关。专为编码 Agent 构建。
解决什么问题：AI 原生开发者需要快速搭建后端，但传统 BaaS（Backend as a Service）并非针对 Agent 工作流设计。InsForge 是”面向 Agent 的 Supabase”。
为什么值得关注：“Agent 需要专属后端”这个洞察很关键。Agent 的工作模式（工具调用、长期记忆、任务编排）与传统 SaaS 应用完全不同，需要专门优化的基础设施。

LearningCircuit/local-deep-research — 今日 564 stars

是什么：本地运行的深度研究 AI 助手，支持本地和云端 LLM（llama.cpp、Ollama、Google 等），10+ 搜索引擎（arXiv、PubMed 等），支持私有文档检索。
解决什么问题：深度研究助手通常依赖云端服务，数据隐私无法保障。Local Deep Research 让你在自己的硬件上运行，数据不出本地。
为什么值得关注：SimpleQA 上 ~95% 的准确率（使用 Qwen3.6-27B 在 3090 上）令人印象深刻。“本地深度研究”正从概念走向实用，特别适合学术研究和隐私敏感场景。

Hmbown/DeepSeek-TUI — 今日 5787 stars ⭐⭐

是什么：DeepSeek V4 模型的终端编码 Agent，支持推理过程流式展示、本地工作区编辑（含确认门控）、以及自动模式（每轮自动选择模型和思考层级）。
解决什么问题：提供对标 Claude Code 的编码 Agent 体验，但使用 DeepSeek V4 作为后端。Rust 实现，性能优异。
为什么值得关注：5787 颗星在一天之内！这说明 DeepSeek V4 的 Agent 生态正在快速形成。终端 Agent 是 2026 年最热门的开发工具品类，DeepSeek TUI 是其中最具潜力的开源选手。

docusealco/docuseal — 今日 899 stars

是什么：开源的 DocuSign 替代品。创建、填写和签署数字文档，支持 PDF 表单构建器、12 种字段类型、多签署人、SMTP 邮件自动化。
解决什么问题：DocuSign 等商业电子签名工具价格昂贵且不可控。DocuSeal 提供了一整套自托管的替代方案。
为什么值得关注：AI 时代，文档自动化是 Agent 落地的重要场景。DocuSeal 提供了 Agent 在工作流中处理文档签名的基础设施。

五、视频与多媒体

Augani/openreel-video — 今日 208 stars

是什么：开源的 CapCut 替代品。基于 React、TypeScript、WebCodecs、WebGPU 的全浏览器端专业视频编辑器，无需安装、无需上传、无水印。
解决什么问题：剪映/CapCut 虽然强大但不开源且需要安装。OpenReel 提供一个 100% 浏览器端、完全开源的替代方案。
为什么值得关注：AI 视频生成越来越强，但编辑工具仍然是瓶颈。WebGPU 的成熟让浏览器端专业视频编辑成为可能，这是 AI 生成内容后处理链条的关键一环。

六、安全

Mozilla 用 Anthropic Mythos 发现并修复 Firefox 271 个 Bug

是什么：Mozilla 使用 Anthropic 的 Mythos（可能是 Claude 的漏洞挖掘工具）在 Firefox 代码中发现了 271 个 Bug 并已修复。
解决什么问题：大型代码库中的 Bug 发现成本极高。AI 自动化漏洞挖掘正在从实验室进入生产环境。
为什么值得关注：评分 888，116 条评论。271 个 Bug 是一个令人震惊的数字。这意味着 AI 代码审计已经到了可以大规模部署的阶段，对软件行业的安全实践有深远影响。
🔗 https://reddit.com/r/singularity/comments/1ssc2cv/mozilla_used_anthropics_mythos_to_find_and_fix/

七、社区热点

🔥 xAI 将被解散为独立实体

是什么：据称 xAI（马斯克的 AI 公司）将不再作为独立实体存在。
为什么值得关注：评分 1233，314 条评论，热度极高。xAI 从成立到可能的解散不到三年。Grok 虽然有亮点但未能撼动 OpenAI/Anthropic 的地位。这反映了 AI 赛道的残酷——即使是马斯克这样的资源也无法保证成功。
🔗 https://reddit.com/r/singularity/comments/1t5q5jm/xai_will_be_dissolved_as_a_separate_entity/

🔥 韩国自主人形机器人皈依佛教

是什么：韩国首个自主人形机器人在寺庙”皈依佛教”。
解决什么问题：这更像是一个社会实验和哲学思考——AI 的自主性和意识问题。
为什么值得关注：评分 1558，338 条评论，是 Reddit 今日最热门话题之一。虽然可能更多是文化现象和技术奇观，但它引发了关于 AI 自主性、伦理和宗教的深度讨论。
🔗 https://reddit.com/r/singularity/comments/1t5dur1/religious_robots_are_coming_south_koreas_first/

Anthropic 与 SpaceX 达成 Colossus I 数据中心合作

是什么：Anthropic 签署协议使用 SpaceX Colossus I 数据中心的全部算力——300+ 兆瓦、220,000+ NVIDIA GPU。同时，Claude Code 5 小时速率限制对所有付费用户翻倍。
解决什么问题：Anthropic 的算力瓶颈。Colossus I 的庞大规模将大幅提升 Anthropic 的训练和推理能力。
为什么值得关注：评分 166（r/artificial）+ 1048（r/singularity），合计热度极高。这是 AI 基础设施军备竞赛的最新战报。300MW 的算力投资规模史无前例。对 Claude Code 用户而言，速率限制翻倍是立即可见的利好。
🔗 https://reddit.com/r/artificial/comments/1t5l92i/anthropic_just_partnered_with_spacex_and_doubled/

AI Agents Conference NYC 现场观察 💭

是什么：一位参会者在纽约 AI Agents Conference 的经历分享。核心观察：大部分公司在押注错误的技术壁垒——Observability、Governance、Supervisor Agents 这些”保姆工具”可能被 Agent 能力本身淘汰。
解决什么问题：帮助创业者理解 AI Agent 时代什么才是真正的护城河。VC 关注的是”每工程师 ARR”而非传统 SaaS 指标。
为什么值得关注：评分 114，74 条评论。这个观点很有洞察力——当 Agent 越来越强，围绕 Agent 的”监护”中间件价值会越来越低。真正的护城河可能是数据、工作流理解和领域知识，而不是”如何监控 Agent”。
🔗 https://reddit.com/r/artificial/comments/1t5ewzi/spent_two_days_at_the_ai_agents_conference_in_nyc/

DeepSeek 估值逼近 450 亿美元

是什么：中国”大基金”领投，DeepSeek 首轮融资估值可能达到 450 亿美元。
解决什么问题：这并非技术问题，而是验证了全球资本对开源 AI 路线的信心。
为什么值得关注：450 亿美元的估值对于一家开源模型公司来说是前所未有的高度。这证明”开源 AI 不赚钱”的观念正在被打破。DeepSeek V4 的崛起彻底改变了全球 AI 竞争格局。
🔗 https://reddit.com/r/LocalLLaMA/comments/1t66dau/deepseek_nears_45bn_valuation_as_chinas_big_fund/

Genesis AI 弹钢琴

是什么：Genesis AI 展示机器人 GENE 26-5 弹钢琴，达到人类级别的灵巧操作。
解决什么问题：机器人灵巧操作（特别是精细动作如弹钢琴）是机器人领域的圣杯问题。
为什么值得关注：评分 158，59 条评论。Genesis AI 在展示机器人操控能力的快速提升——细节操作能力正在逼近人类水平。
🔗 https://reddit.com/r/singularity/comments/1t65z81/genesis_ai_playing_piano/

Nous Research AMA 预告

是什么：r/LocalLLaMA 宣布 Nous Research 团队将举办 AMA。
为什么值得关注：Hermes Agent 的开发者直接与社区互动，社区评分 136，33 条评论。反映了开源 Agent 项目的高关注度。
🔗 https://reddit.com/r/LocalLLaMA/comments/1suw9on/ama_announcement_nous_research_the_opensource_lab/

八、学术圈

不要让 LLM 编辑你的 .bib 文件

是什么：一位研究者呼吁学术界不要用 LLM 编辑参考文献文件，因为他发现大量 LLM 产生的虚假引用——包括引用他自己的论文时作者列表都是错的。
解决什么问题：指出了 LLM 在学术写作中的一个严重问题：幻觉引用。作者列表错误、伪造的论文标题等。
为什么值得关注：评分 159，27 条评论。这是学术界对 AI 工具的理性反思——AI 能提高效率，但不能替代研究者的基本责任。虚假引用会破坏学术诚信。
🔗 https://reddit.com/r/MachineLearning/comments/1t5anla/stop_letting_llms_edit_your_bib_d/

九、行业观点与深度分析

[Latent Space] Anthropic-SpaceX 300MW/$5B/yr Colossus I 交易

是什么：Latent Space 深入分析了 Anthropic 与 SpaceX Colossus I 数据中心合作的细节——300MW 功率、50 亿美元/年的算力投资、8000% 年化 ARR 增长。
核心洞察：Anthropic 的 ARR 增速（8000% 年化）令人瞠目。这不仅仅是一笔算力采购，而是 AI 公司的算力需求正在迈向”国家级”基础设施规模。
🔗 https://www.latent.space/p/ainews-anthropic-spacexais-300mw5byr

[OpenAI Blog] Parloa：构建客户想要的对话 Agent

是什么：Parloa 利用 OpenAI 技术构建客户服务 Agent，提供让用户真正愿意交谈的服务体验。
核心洞察：客服 Agent 已经从”能不能用”进化到”好不好用”。Parloa 的案例展示了 Agent 在客户体验上的实质性提升。
🔗 https://openai.com/index/parloa

[Google AI Blog] AANHPI 传统月

是什么：Google 庆祝亚太裔传统月的企业文化活动。
核心洞察：AI 公司的文化多样性仍然是重要议题。
🔗 https://blog.google/company-news/outreach-and-initiatives/creating-opportunity/honoring-asian-and-pasifika-ancestry-month-2026/

🔮 趋势总结

Agent 行业化加速：Anthropic 推出金融服务 Agent、Vercel 发布云 Agent 模板、Goose 移交 Linux 基金会——Agent 正在从通用工具走向行业专用解决方案。2026 年下半年，每个垂直行业都可能出现自己的”Agent 参考实现”。
推理优化成为 AI Infra 核心战场：DFlash（投机解码）、ParoQuant（量化）、Subquadratic（新架构）——从多个维度全面进攻推理效率。Qwen3.6-27B 在 3090 上跑到 50 t/s 不再是理论值。推理成本下降的速度可能超过训练成本，这将改变整个 AI 产品的商业模式。
开源模型生态持续繁荣：GLM-5.1 SOTA、MiniMax-M2.7 成为”家庭版 Sonnet”、ZAYA1-8B AMD 训练成功——开源模型不仅追上了闭源，还在一些维度（AMD 训练、1-bit 量化）实现了超越。DeepSeek 450 亿美元估值为开源路线投下最强信心票。

Share this post on:

🐝 AI 趋势日报 — 2026-05-09

🐝 AI 趋势日报 — 2026-05-04