【AI 周刊 #071 - GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2026-2-16 11:40

AI 周刊 #071 - GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布

作者：微信文章

本期看点：GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布。Google Chrome 发布 WebMCP 预览版.GitHub 推出 gh-aw：用自然语言写 Agentic Workflow，在 Actions 里跑。Compound Engineering Plugin：Claude Code 官方插件，集成 AI 软件工程闭环工作流。

编辑：TimLi

本周热点

智谱 GLM 5 发布 - 智谱新一代通用大模型，面向复杂系统与长程 Agent 任务。规模由 GLM-4.5 的 355B 增至 744B 参数（40B 激活），预训练数据 28.5T tokens；集成 DeepSeek 稀疏注意力（DSA）在保持长上下文的同时降低部署成本，自研异步强化学习框架 slime 提升训练效率。推理、代码与 Agent 类 benchmark 达开源最佳，已开源于 Hugging Face，支持中英文及企业部署。
长按识别二维码查看原文
https://huggingface.co/zai-org/GLM-5

谷歌 Gemini 3 Deep Think 发布 - 面向科研与工程难题：ARC-AGI-2、Humanity's Last Exam、Codeforces 等 benchmark 刷新高分，数理化奥赛达金牌水平。能力亮点：可处理数据缺失的复杂场景，具备类似「同行评审」的纠错能力（如 Rutgers 测试中复查高能物理论文并指出人类评审遗漏的逻辑问题）；支持物理世界干预——如 Duke 用其设计晶体生长配方做出超 100 μm 薄膜、从手绘草图生成 3D 模型用于 3D 打印。Ultra 用户可在 App 内使用，开发者与企业可申请 API。
长按识别二维码查看原文
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

MiniMax 发布 MiniMax M2.5 - MiniMax 新一代基础模型，在代码、Agent 工具调用与搜索、办公等场景达 SOTA：SWE-Bench Verified 80.2%、BrowseComp 76.3%。相较 M2.1 完成 SWE-Bench 提速约 37%，与 Claude Opus 4.6 相当；成本显著降低，100 TPS 连续运行一小时约 1 美元。自研 Agent 原生 RL 框架 Forge 等支撑大规模强化学习，已上线 Hugging Face，支持 vLLM、SGLang 等本地部署。
长按识别二维码查看原文
https://huggingface.co/MiniMaxAI/MiniMax-M2.5

字节 Seedream 5.0 上线 - 字节 2026 年 2 月发布 Seedream 5.0 Preview，行业首个支持实时联网搜索的图像生成模型，可结合时事与热点生成内容。加强复杂提示词理解与多步推理、原生 2K 可增强至 4K，并引入笔刷与多轮对话式编辑；内置生物、建筑等垂直知识。已上线即梦、剪映、CapCut、小云雀等，官方对标 Nano Banana Pro，限时免费体验 2K 输出。
长按识别二维码查看原文
https://jimeng.jianying.com/

千问 Qwen-Image-2.0 发布 - 阿里千问第二代图像模型，统一文生图与图像编辑，主打复杂文字渲染与精准编辑：支持 1K token 长文本、2K 分辨率，中英文排版、PPT/信息图/多格漫画生成表现突出，编辑支持风格迁移、增删、文字修改等。在 GenEval、LongText-Bench、ChineseWord 等基准领先。目前通过 Qwen Chat「图像生成」体验，尚未开源，官方称年后会开源。
长按识别二维码查看原文
https://qwenlm.github.io/blog/qwen-image/

Cursor 发布 Composer 1.5 - 在 Composer 1 同一预训练基础上，将强化学习规模扩大约 20 倍构建，后训练算力甚至超过预训练。思考型模型：简单问题少思考快速响应，难题则延长思考直至满意；具备自我总结能力，上下文用尽时可生成摘要并继续探索，适合长任务。内部基准上显著超越 Composer 1，推荐交互式编码场景优先使用。
长按识别二维码查看原文
https://cursor.com/cn/blog/composer-1-5

Stitch 新增智能体模式 Ideate - Google Labs 的 AI UI 设计工具，已接入 Gemini 3（可选 Flash 或 Pro）。支持从文本或草图生成完整界面与前端代码、多方案迭代、局部编辑、导出 Figma。Ideate 模式先分析设计需求再产出方案，形成「需求 → 方案」的智能体流程。 stitch.withgoogle.com 免费 Beta。
长按识别二维码查看原文
https://stitch.withgoogle.com/?pli=1

字节豆包 2.0 发布 - 2026 年 2 月发布，含 Pro、Lite、Mini 三款通用 Agent 模型与专用 Code 模型。Pro 面向深度推理与长链路任务，对标 GPT-5.2 / Gemini 3 Pro；多模态与推理在多项基准领先（如 HLE-Text 54.2、EgoTempo 超人类平均）；Code 与 TRAE 协同优化代码场景。定价较同级约低一个数量级。Pro 已上豆包 App/电脑/网页（专家模式），API 上火山引擎。
长按识别二维码查看原文
https://www.doubao.com/

小红书开源 FireRed-Image-Edit-1.0 - 小红书 FireRedTeam 开源的通用图像编辑模型，支持多图编辑（如虚拟试穿）、老照片修复、文字风格保持，基于文生图基础模型赋予编辑能力。在 ImgEdit、GEdit 及自建 REDEdit-Bench 上达开源领先，指令遵循与视觉一致性表现突出。Apache 2.0，Hugging Face 可体验与部署。
长按识别二维码查看原文
https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0

Google Chrome 发布 WebMCP 预览版 - 2026 年 2 月推出抢先预览版，让网站以结构化工具向 Agent 声明「能做什么、如何操作」，减少盲目试错。提供命令式 API（需执行 JS 的复杂交互）与声明式 API（HTML 表单标准操作），提升可靠性与性能。典型场景：旅游预订、电商选购与结账、客户支持工单。需加入抢先预览计划获取文档与试用。
长按识别二维码查看原文
https://developer.chrome.com/blog/webmcp-epp?hl=zh-cn

教程与分享
用 AI 做「活的设计文档」、告别 Figma 原型 - 作者把 Figma 设计交给 Claude，生成可交互的 HTML 原型：表单校验、错误态、页面跳转一应俱全，部署成链接谁都能点。左侧导航 + 右侧实时手机原型，文档即原型、原型即文档，团队反馈和 IxD 阅读率都上去了；迭代时直接跟 Claude 说「这里要改」，比在 Figma 里重新连热点快很多。
长按识别二维码查看原文
https://medium.com/@fengxycz/i-ditched-figma-prototype-and-built-a-living-design-document-with-ai-a9e1c09eb977

马斯克说「编程今年就消亡」？别信，他没说过 - 澄清一则刷屏谣言：马斯克在 xAI 全员会上说的是「也许年底不用写代码、AI 直接生成二进制」的即兴推测，并未提编程职业抹除、Neuralink 读脑写软件等。文章从跨平台、可审查、确定性三方面分析「AI 直接出二进制」的硬伤，并指出编程更可能走向「AI 写、人审」；一边说不用写代码、一边猛招工程师，信哪个看行动就行。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-13/musk-coding-dead

Sherwin Wu 谈 OpenAI 内部 AI 编码：95% 用 Codex，100% PR 由 Codex 审 - OpenAI API 与开发者平台负责人 Sherwin 在 Lenny's Podcast 的访谈整理：重度用 Codex 的工程师 PR 多约 70%、代码审查从 10–15 分钟压到 2–3 分钟；「魔法师的学徒」比喻——别像米奇那样完全放手；100% Codex 代码库实验发现卡住时往往是上下文不足，要把「部落知识」写进注释和 skills；还有一人十亿美元公司、AI 部署为何常亏钱、模型会吞掉脚手架等讨论。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-12/sherwin-wu-ai-software-engineering

OpenAI 官方：Skills、Shell、Compaction 十条实战技巧 - 用 Skills（按需加载的操作手册）、Shell 工具（本地或托管执行）、上下文压缩（Compaction）让智能体长时间跑不崩。重点：技能描述就是模型的决策边界、加负面示例能提升路由准确率、长期运行一开始就上压缩；Glean 等生产案例有数据。Agent Skills 为开放标准（Anthropic 发起，OpenAI 等采纳），和托管 Shell/Compaction 等平台能力需区分开看。
长按识别二维码查看原文
https://baoyu.io/blog/2026-02-12/skills-shell-tips

模型与工具
GitHub gh-aw：用自然语言写 Agentic Workflow，在 Actions 里跑 - 用 Markdown 描述 agent 工作流，在 GitHub Actions 中执行；默认只读、写操作走 safe-outputs，沙箱、输入清洗、网络隔离、依赖 SHA 固定等都有考虑。文档与 Quick Start 在 github.github.com/gh-aw。
长按识别二维码查看原文
https://github.com/github/gh-aw

Compound Engineering Plugin：Plan → Work → Review → Compound - Claude Code 官方插件，把「计划 → 执行 → 评审 → 沉淀」做成闭环：/workflows:plan 把需求拆成实施计划，/workflows:work 用 worktree 与任务跟踪执行，/workflows:review 多 agent 审代码，/workflows:compound 把经验写进文档。支持通过 CLI 转成 OpenCode、Codex、Cursor、Droid、Pi、Gemini 等格式，并可把 ~/.claude/ 的 skills 与 MCP 同步到其他 AI 编码工具。
长按识别二维码查看原文
https://github.com/EveryInc/compound-engineering-plugin

claude-skills：66 个全栈向 Claude Code 技能 - 按请求自动激活（如「用 NestJS 做 JWT」→ NestJS Expert），多技能可组合成 Feature Forge、Debugging Wizard 等流程；含 9 个 workflow 命令、Common Ground 上下文工程，支持 Jira/Confluence。
长按识别二维码查看原文
https://github.com/Jeffallan/claude-skills

Pydantic Monty：给 AI 用的轻量安全 Python 解释器（Rust 实现） - 不依赖完整容器，在进程内安全跑 LLM 生成的 Python：无文件系统/网络/环境变量直连，只能调你注入的函数；启动微秒级、支持快照恢复、可限内存与执行时间。语言子集（无标准库大部、无第三方库、暂无 class/match），面向 Agent 写代码由 Monty 执行的场景，将用于 Pydantic AI 的 code-mode。
长按识别二维码查看原文
https://github.com/pydantic/monty

awesome-llm-apps - 大量基于 RAG、AI Agent、多智能体、MCP、语音 Agent 的 LLM 应用合集，涵盖 OpenAI、Anthropic、Gemini、开源模型；从入门到进阶的 Agent、RAG、Chat with X、微调等教程和示例代码，按目录克隆即可跑。
长按识别二维码查看原文
https://github.com/Shubhamsaboo/awesome-llm-apps

🙋‍♀️ 关注我们

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 周刊 #071 - GLM 5、Gemini 3 Deep Think、MiniMax M2.5 发布