AiWeekly | 每周AI热点精选 01.12-01.18
作者:微信文章技术动态
01
美团LongCat:发布并开源推理模型LongCat-Flash-Thinking-2601
1月16日,美团LongCat团队正式发布并开源推理模型 LongCat-Flash-Thinking-2601,核心突破在于首创的"重思考模式"和卓越工具调用泛化能力。
该模型通过并行拆分8条推理路径进行深度思考,在智能体搜索、工具调用等基准测试中性能优越,尤其在随机复杂任务中泛化能力突出。其创新性体现在:一是采用多环境强化学习训练,模拟60余种工具的复杂联动场景;二是在训练中主动注入API调用失败等噪声数据,提升抗干扰能力;三是通过"并行思考-总结归纳"两阶段架构,实现类似人类的深度推理。
GitHub:
https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
官网:
https://longcat.aiAPI
开放平台:
https://longcat.chat/platform/usage
原文链接>> 美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
02
智谱:联合华为开源图像生成模型GLM-Image
1月14日,智谱联合华为开源图像生成模型GLM-Image,模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程。
GLM-Image采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的联合,是面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。
技术报告:
https://z.ai/blog/glm-image
开放平台:
https://bigmodel.cn/trialcenter/modeltrial/image
GitHub:
https://github.com/zai-org/GLM-Image
Hugging Face:
https://huggingface.co/zai-org/GLM-Image
魔搭社区:
https://modelscope.cn/models/ZhipuAI/GLM-Image
原文链接>> 智谱联合华为开源首个国产芯片训练的多模态SOTA模型
03
谷歌:发布多模态大语言医疗模型MedGemma 1.5
1月14日,谷歌发布多模态大语言医疗模型MedGemma 1.5,并同步发布专为医疗场景设计的语音识别模型 MedASR。
MedGemma 1.5支持高维医学影像分析包括CT和MRI三维体数据以及全切片数字病理图像。同步推出的MedASR语音识别模型,可以将医生与患者的对话转化为文本,并无缝接入到MedGemma。
开源地址:
https://huggingface.co/google/medgemma-1.5-4b-it
原文链接>> AI医疗,谷歌放大招!开源「AI全能医生」,告别算力焦虑,医院一键部署!
04
Deepseek:发布新论文,开源Engram模块
1月13日,DeepSeek发布一篇新论文,并在其GitHub仓库开源了模块Engram。
目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 实现了近乎即时的知识调用。
论文地址:
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
模块Engram:
https://github.com/deepseek-ai/Engram
原文链接>> Deepseek开源Engram模块:打造“外置记忆体”,大模型架构迎来关键跃迁
05
百川智能:开源医疗大模型Baichuan-M3
1月13日,百川智能开源医疗大模型Baichuan-M3,具备原生端到端严肃问诊能力。
Baichuan-M3采用全动态Verifier System升级强化学习系统,抑制医疗幻觉,设计新SPAR算法解决长对话训练问题。此外,M3还首次具备了原生的“端到端”严肃问诊能力,它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。
Hugging Face:
https://huggingface.co/baichuan-inc/Baichuan-M3-235B
GitHub:
https://github.com/baichuan-inc/Baichuan-M3-235B
原文链接>> 百川开源医疗大模型M3,「严肃问诊」定义AI医疗新能力
06
逐际动力:发布具身智能体系统LimX COSA
1月12日,逐际动力发布具身智能体系统 LimX COSA(Cognitive OS of Agents)。
LimX COSA是逐际动力全新开发的面向物理世界原生的具身Agentic OS,采用三层架构设计(小脑运动控制层、技能整合层、认知决策层),通过将高阶认知与全身运控进行深度融合,使机器人在真实的物理世界中,实现“能想、能动、边思考边干活”的大小脑一体化智能。
原文链接>> 逐际动力LimX COSA上线,Oli成为能“边思考边干活”的人形智能体
07
千寻智能:开源具身智能基础模型Spirit v1.5
1月12日,千寻智能(Spirit AI)开源端到端的具身智能基础模型Spirit v1.5。
Spirit v1.5核心创新在于采用“多样化数据采集”范式,摒弃传统“干净数据”训练方式,通过开放式目标驱动学习,使人均有效采集时长增加200%,对算法专家依赖降低60%,显著提升模型泛化能力。
Blog:
https://www.spirit-ai.com/en/blog/spirit-v1-5
Code:
https://github.com/Spirit-AI-Team/spirit-v1.5
Model:
https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
原文链接>> RoboChallenge榜单全球第一!Spirit v1.5同步开源!
行业动态
01
阿里千问App:上线400多项办事功能
1月15日,千问App上线400多项办事功能,正式从“聊天对话”迈入“AI办事时代”。
基于Qwen最强模型与阿里最丰富生态,千问App接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票、订酒店等AI购物功能,向所有用户开放测试。
原文链接>> 千问App上线AI购物,真正能帮你办事的AI来了!
02
爱诗科技:发布通用实时世界模型PixVerse R1
1月14日,爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1,实现了视频生成的“即时”革命,将延迟从秒级降至人眼可感知。
PixVerse R1通过Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术,实现了视频从"预录制"到"实时动态生成"的突破,用户可实时通过文字或语音干预视频内容,生成无限延续的可视化流。其应用场景覆盖互动影视、游戏开发等领域,标志着视频媒介正式进入可交互的"Playable Reality"时代。
原文链接>> 来了!通用实时世界模型 PixVerse R1
03
生数科技:Vidu AI开放平台上线“一键生成MV”功能
1月14日,Vidu AI开放平台上线“一键生成MV”功能,是一个深度协同的多智能体(Multi-Agent)系统。
系统包括导演智能体、分镜脚本智能体、视觉生成智能体和剪辑合成智能体,在分钟级时间内输出完整成片。用户仅需提交音乐、参考图像与文本指令,系统即可全自动输出叙事连贯、音画同步的高完成度MV。
原文链接>> Vidu发布一键生成AI MV:主流音乐机构的叙事权,正让渡给每个创作者
04
谷歌:发布Personal Intelligence功能
1月14日,谷歌发布由最新Gemini3模型驱动的“Personal Intelligence”功能。
该功能将谷歌旗下Gmail、Photos、YouTube和Search四大应用的数据池进行了底层连接,可跨应用调取数据实现私有上下文理解;内置自然语言纠错机制,用户可直接在对话框指出AI的错误推断,系统实时修正认知记录,降低数据模型管理门槛。从此,谷歌AI能够自主跨越应用边界,将分散在邮件里的行程、相册里的记忆碎片以及视频观看习惯,实时串联成一套完整的个人生活图谱。
原文链接>> Gemini盘活了谷歌全家桶,“原生”自带你10年的记忆
05
1X:发布世界模型1X World Model
1月13日,开发出Neo人形机器人的公司1X发布世界模型1X World Model,核心在于让机器人如何形成自己的世界理解,并在此基础上持续学习与行动,以此推进 NEO 机器人规模化部署。
1X World Model模型能让NEO像人类一样“想象”动作流程:接收到指令时,先在虚拟环境中模拟完成任务的视频,再将分解动作转化为实际操作。目前能处理抓取物体、双手协作等任务,但精细操作如倒液体仍有挑战。其核心突破在于无需大量机器人实操数据,而是借助互联网视频实现技能迁移。
原文链接>> 1X把「世界模型」真正用在了机器人NEO身上
06
Anthropic:发布AI办公助手Cowork
1月12日,Anthropic发布AI办公助手Cowork,定位为"普通人的Claude Code"。
Cowork通过图形化界面让非技术人员也能使用AI完成文件整理、报告生成等日常任务,直接操作本地文件而无需编程,目前仅支持macOS系统。其核心优势在于"子代理并行处理"技术,可拆解复杂任务并自主执行,例如整理桌面文件、分析跨平台数据等,但存在误删文件风险需谨慎使用。
原文链接>> Anthropic深夜再出杀招!编码AI一键清空桌面
07
昆仑万维:天工超级智能体上线 Skywork Video v1.0
1月12日,昆仑万维在天工超级智能体上线Skywork Video v1.0,以"项目制"整合创作流程,所有素材自动归集并一键添加至多轨道编辑。
Skywork Video v1.0提供文本生成、图片动效、首尾帧补全、多图风格参考生成及数字人视频生成五种启动方式,内置多轨道编辑器支持分割、替换等精细操作。至此,Skywork产品矩阵完成从文档、表格、演示文稿到视频生成的全模态覆盖,构建覆盖多场景、支持多模态的智能办公平台。
原文链接>> 从文档、表格到视频:Skywork Super Agents 迎来关键拼图,Video v1.0重塑一体化创作流程
政策趋势
01
江苏:印发《江苏省“人工智能+”行动方案》
1月13日,江苏省人民政府印发《江苏省“人工智能+”行动方案》,旨在加快人工智能技术创新,强化算力、算法、数据等高效供给,推动人工智能赋能千行百业、进入千商万店千家万户。
《行动方案》提出明确目标:到2027年,率先实现人工智能广泛深度融合,新一代智能终端、智能体等应用普及率70%以上,产业规模快速增长。到2030年,新一代智能终端、智能体等应用普及率超90%,形成一批国内领先的大模型,打造一批规模化商业化应用场景,人工智能产业规模超万亿元,智能经济成为全省经济发展的重要增长极。到2035年,建成国内领先的“人工智能+”创新策源地、产业新高地和融合应用先导区,全面步入智能经济和智能社会发展新阶段。
原文链接>> 江苏发布“人工智能+”行动方案
02
安徽:印发《安徽省“人工智能+万物”应用行动方案》
1月13日,安徽省办公厅印发《安徽省“人工智能+万物”应用行动方案》,包括行动目标、加快实施“十百千万”工程、保障措施3个部分。
《行动方案》提出:到2027年,应用落地突破5000个,新一代智能终端、智能体等应用普及率超70%,“人工智能+万物”应用广度和深度显著增强。到2030年,“人工智能+万物”应用实现跨越式发展,“百个”重点应用领域全覆盖,应用落地超万个,新一代智能终端、智能体等应用普及率超90%。
此外,系统实施“十百千万”工程,聚焦十大重点方向,涵盖模型应用体系、算力应用调度、数据应用服务、安全应用保障4大应用支撑方向以及“人工智能+”科学技术、工业、农业、服务业、消费、社会民生6大应用落地方向,加快培育一批底层架构和运行逻辑基于人工智能的智能原生企业。
原文链接>> 《安徽省“人工智能+万物”应用行动方案》政策解读
03
甘肃:印发《人工智能赋能甘肃基础教育实施方案(2025-2030年)》
近日,甘肃省教育厅印发《人工智能赋能甘肃基础教育实施方案(2025-2030年)》,明确了7项行动22条主要任务以及保障措施。
该方案重点包括构建分层递进的课程体系、建设30个省级教育基地、培养专职教师队伍,并强调安全伦理教育。目标到2030年形成AI教育新生态,提升师生素养和学生创新能力。保障措施涉及经费投入、考核评价及数据安全防护等。
原文链接>> 我省发布《人工智能赋能甘肃基础教育实施方案(2025-2030)》
声明:资料素材均来源官方媒体/网络,如有侵权,请联系删除。
✦
✦
END
南京新一代人工智能研究院
Nanjing Research
Institute of Next-generation Artificial Intelligence
南京新一代人工智能研究院,是中国信息通信研究院在人工智能、大数据领域投资组建的控股企业,是江苏省人工智能产业公共技术服务平台的落地运营单位。
研究院以“服务国家战略实施,促进地方产业升级”为导向,在人工智能和大数据领域,开展前沿技术研究、标准制定、评测工具开发、实验能力建设等工作,可为企业提供全方位的诊断、咨询、培训、评估服务。
联系方式
吴老师 17788386765(微信同号)
杨老师 15221125491(微信同号)
页:
[1]