AI 周刊 #071 - GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布
作者:微信文章本期看点:GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布。Google Chrome 发布 WebMCP 预览版.GitHub 推出 gh-aw:用自然语言写 Agentic Workflow,在 Actions 里跑。Compound Engineering Plugin:Claude Code 官方插件,集成 AI 软件工程闭环工作流。
编辑:TimLi
本周热点
智谱 GLM 5 发布 - 智谱新一代通用大模型,面向复杂系统与长程 Agent 任务。规模由 GLM-4.5 的 355B 增至 744B 参数(40B 激活),预训练数据 28.5T tokens;集成 DeepSeek 稀疏注意力(DSA)在保持长上下文的同时降低部署成本,自研异步强化学习框架 slime 提升训练效率。推理、代码与 Agent 类 benchmark 达开源最佳,已开源于 Hugging Face,支持中英文及企业部署。
长按识别二维码查看原文
https://huggingface.co/zai-org/GLM-5
谷歌 Gemini 3 Deep Think 发布 - 面向科研与工程难题:ARC-AGI-2、Humanity's Last Exam、Codeforces 等 benchmark 刷新高分,数理化奥赛达金牌水平。能力亮点:可处理数据缺失的复杂场景,具备类似「同行评审」的纠错能力(如 Rutgers 测试中复查高能物理论文并指出人类评审遗漏的逻辑问题);支持物理世界干预——如 Duke 用其设计晶体生长配方做出超 100 μm 薄膜、从手绘草图生成 3D 模型用于 3D 打印。Ultra 用户可在 App 内使用,开发者与企业可申请 API。
长按识别二维码查看原文
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
MiniMax 发布 MiniMax M2.5 - MiniMax 新一代基础模型,在代码、Agent 工具调用与搜索、办公等场景达 SOTA:SWE-Bench Verified 80.2%、BrowseComp 76.3%。相较 M2.1 完成 SWE-Bench 提速约 37%,与 Claude Opus 4.6 相当;成本显著降低,100 TPS 连续运行一小时约 1 美元。自研 Agent 原生 RL 框架 Forge 等支撑大规模强化学习,已上线 Hugging Face,支持 vLLM、SGLang 等本地部署。
长按识别二维码查看原文
https://huggingface.co/MiniMaxAI/MiniMax-M2.5
字节 Seedream 5.0 上线 - 字节 2026 年 2 月发布 Seedream 5.0 Preview,行业首个支持实时联网搜索的图像生成模型,可结合时事与热点生成内容。加强复杂提示词理解与多步推理、原生 2K 可增强至 4K,并引入笔刷与多轮对话式编辑;内置生物、建筑等垂直知识。已上线即梦、剪映、CapCut、小云雀等,官方对标 Nano Banana Pro,限时免费体验 2K 输出。
长按识别二维码查看原文
https://jimeng.jianying.com/
千问 Qwen-Image-2.0 发布 - 阿里千问第二代图像模型,统一文生图与图像编辑,主打复杂文字渲染与精准编辑:支持 1K token 长文本、2K 分辨率,中英文排版、PPT/信息图/多格漫画生成表现突出,编辑支持风格迁移、增删、文字修改等。在 GenEval、LongText-Bench、ChineseWord 等基准领先。目前通过 Qwen Chat「图像生成」体验,尚未开源,官方称年后会开源。
长按识别二维码查看原文
https://qwenlm.github.io/blog/qwen-image/
Cursor 发布 Composer 1.5 - 在 Composer 1 同一预训练基础上,将强化学习规模扩大约 20 倍构建,后训练算力甚至超过预训练。思考型模型:简单问题少思考快速响应,难题则延长思考直至满意;具备自我总结能力,上下文用尽时可生成摘要并继续探索,适合长任务。内部基准上显著超越 Composer 1,推荐交互式编码场景优先使用。
长按识别二维码查看原文
https://cursor.com/cn/blog/composer-1-5
Stitch 新增智能体模式 Ideate - Google Labs 的 AI UI 设计工具,已接入 Gemini 3(可选 Flash 或 Pro)。支持从文本或草图生成完整界面与前端代码、多方案迭代、局部编辑、导出 Figma。Ideate 模式先分析设计需求再产出方案,形成「需求 → 方案」的智能体流程。 stitch.withgoogle.com 免费 Beta。
长按识别二维码查看原文
https://stitch.withgoogle.com/?pli=1
字节豆包 2.0 发布 - 2026 年 2 月发布,含 Pro、Lite、Mini 三款通用 Agent 模型与专用 Code 模型。Pro 面向深度推理与长链路任务,对标 GPT-5.2 / Gemini 3 Pro;多模态与推理在多项基准领先(如 HLE-Text 54.2、EgoTempo 超人类平均);Code 与 TRAE 协同优化代码场景。定价较同级约低一个数量级。Pro 已上豆包 App/电脑/网页(专家模式),API 上火山引擎。
长按识别二维码查看原文
https://www.doubao.com/
小红书开源 FireRed-Image-Edit-1.0 - 小红书 FireRedTeam 开源的通用图像编辑模型,支持多图编辑(如虚拟试穿)、老照片修复、文字风格保持,基于文生图基础模型赋予编辑能力。在 ImgEdit、GEdit 及自建 REDEdit-Bench 上达开源领先,指令遵循与视觉一致性表现突出。Apache 2.0,Hugging Face 可体验与部署。
长按识别二维码查看原文
https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0
Google Chrome 发布 WebMCP 预览版 - 2026 年 2 月推出抢先预览版,让网站以结构化工具向 Agent 声明「能做什么、如何操作」,减少盲目试错。提供命令式 API(需执行 JS 的复杂交互)与声明式 API(HTML 表单标准操作),提升可靠性与性能。典型场景:旅游预订、电商选购与结账、客户支持工单。需加入抢先预览计划获取文档与试用。
长按识别二维码查看原文
https://developer.chrome.com/blog/webmcp-epp?hl=zh-cn
教程与分享
用 AI 做「活的设计文档」、告别 Figma 原型 - 作者把 Figma 设计交给 Claude,生成可交互的 HTML 原型:表单校验、错误态、页面跳转一应俱全,部署成链接谁都能点。左侧导航 + 右侧实时手机原型,文档即原型、原型即文档,团队反馈和 IxD 阅读率都上去了;迭代时直接跟 Claude 说「这里要改」,比在 Figma 里重新连热点快很多。
长按识别二维码查看原文
https://medium.com/@fengxycz/i-ditched-figma-prototype-and-built-a-living-design-document-with-ai-a9e1c09eb977
马斯克说「编程今年就消亡」?别信,他没说过 - 澄清一则刷屏谣言:马斯克在 xAI 全员会上说的是「也许年底不用写代码、AI 直接生成二进制」的即兴推测,并未提编程职业抹除、Neuralink 读脑写软件等。文章从跨平台、可审查、确定性三方面分析「AI 直接出二进制」的硬伤,并指出编程更可能走向「AI 写、人审」;一边说不用写代码、一边猛招工程师,信哪个看行动就行。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-13/musk-coding-dead
Sherwin Wu 谈 OpenAI 内部 AI 编码:95% 用 Codex,100% PR 由 Codex 审 - OpenAI API 与开发者平台负责人 Sherwin 在 Lenny's Podcast 的访谈整理:重度用 Codex 的工程师 PR 多约 70%、代码审查从 10–15 分钟压到 2–3 分钟;「魔法师的学徒」比喻——别像米奇那样完全放手;100% Codex 代码库实验发现卡住时往往是上下文不足,要把「部落知识」写进注释和 skills;还有一人十亿美元公司、AI 部署为何常亏钱、模型会吞掉脚手架等讨论。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-12/sherwin-wu-ai-software-engineering
OpenAI 官方:Skills、Shell、Compaction 十条实战技巧 - 用 Skills(按需加载的操作手册)、Shell 工具(本地或托管执行)、上下文压缩(Compaction)让智能体长时间跑不崩。重点:技能描述就是模型的决策边界、加负面示例能提升路由准确率、长期运行一开始就上压缩;Glean 等生产案例有数据。Agent Skills 为开放标准(Anthropic 发起,OpenAI 等采纳),和托管 Shell/Compaction 等平台能力需区分开看。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-12/skills-shell-tips
模型与工具
GitHub gh-aw:用自然语言写 Agentic Workflow,在 Actions 里跑 - 用 Markdown 描述 agent 工作流,在 GitHub Actions 中执行;默认只读、写操作走 safe-outputs,沙箱、输入清洗、网络隔离、依赖 SHA 固定等都有考虑。文档与 Quick Start 在 github.github.com/gh-aw。
长按识别二维码查看原文
https://github.com/github/gh-aw
Compound Engineering Plugin:Plan → Work → Review → Compound - Claude Code 官方插件,把「计划 → 执行 → 评审 → 沉淀」做成闭环:/workflows:plan 把需求拆成实施计划,/workflows:work 用 worktree 与任务跟踪执行,/workflows:review 多 agent 审代码,/workflows:compound 把经验写进文档。支持通过 CLI 转成 OpenCode、Codex、Cursor、Droid、Pi、Gemini 等格式,并可把 ~/.claude/ 的 skills 与 MCP 同步到其他 AI 编码工具。
长按识别二维码查看原文
https://github.com/EveryInc/compound-engineering-plugin
claude-skills:66 个全栈向 Claude Code 技能 - 按请求自动激活(如「用 NestJS 做 JWT」→ NestJS Expert),多技能可组合成 Feature Forge、Debugging Wizard 等流程;含 9 个 workflow 命令、Common Ground 上下文工程,支持 Jira/Confluence。
长按识别二维码查看原文
https://github.com/Jeffallan/claude-skills
Pydantic Monty:给 AI 用的轻量安全 Python 解释器(Rust 实现) - 不依赖完整容器,在进程内安全跑 LLM 生成的 Python:无文件系统/网络/环境变量直连,只能调你注入的函数;启动微秒级、支持快照恢复、可限内存与执行时间。语言子集(无标准库大部、无第三方库、暂无 class/match),面向 Agent 写代码由 Monty 执行的场景,将用于 Pydantic AI 的 code-mode。
长按识别二维码查看原文
https://github.com/pydantic/monty
awesome-llm-apps - 大量基于 RAG、AI Agent、多智能体、MCP、语音 Agent 的 LLM 应用合集,涵盖 OpenAI、Anthropic、Gemini、开源模型;从入门到进阶的 Agent、RAG、Chat with X、微调等教程和示例代码,按目录克隆即可跑。
长按识别二维码查看原文
https://github.com/Shubhamsaboo/awesome-llm-apps
🙋♀️ 关注我们
页:
[1]