新闻 发表于 2025-6-29 20:39

AI简报:AI创新持续爆发(2025.6.23-2025.6.29)

作者:微信文章
“从感知到生成的跨越,国内 AI 领域正迎来多模态、模型迭代与智能硬件的全面爆发,一场科技变革的盛宴正徐徐拉开帷幕。”



01
【国内】
通义千问发布多模态统一理解与生成模型Qwen VLo,该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。


胡润研究院发布了《2025全球独角兽榜》,SpaceX、字节跳动和OpenAI荣登前三甲。

腾讯开源混元-A13B模型,是基于专家混合(MoE)架构,总参数800亿,激活参数130亿,推理效率高,仅需1张中低端GPU卡即可部署。
https://mmbiz.qpic.cn/sz_mmbiz_png/jhgibzXKDS2VVtOUF08k3ngxkgMqTbyjW5sDXONq0CeibbVVRTqncOzuvJSxWFGqsp6lq5wywpZ67AV60ZJ21Mhw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

可灵AI上线“视频音效”,可在生成视频时同步生成高质量立体声音效,支持用户上传视频或调用历史作品,一键匹配精准同步音效。

快手推出自主研发的多模态大语言模型 Kwai Keye-VL,具备强大的视频理解与推理能力。该模型融合文本、图像、视频等多模态信息,能快速解析复杂视觉内容,如精准计数图像中的草莓,并在短时间内为商品视频生成推销方案。

Hengbot 推出 Sirius 机器狗,主打敏捷运动,可跳舞、踢足球,集成了 OpenAI 大语言模型,支持语音对话,能根据主人需求调整性格和声音。

出门问问发布全球首款Agentic AI硬件产品TicNote,售价999元起。具备AI转写、总结、生成思维导图等功能,支持120多种语言及24种方言转写,准确率达98%。TicNote厚度仅3mm,可磁吸于手机,续航达20天,支持10米远距收声。
https://mmbiz.qpic.cn/sz_mmbiz_png/UBibyicic6JSfQprVszLmcRsR8egrWfEhqI9KruPibvibwbOQOay4kIGSng5dn7H9PARFCy1fjATM3IYPxmfibL7mGRg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

蚂蚁集团发布全新AI健康应用「AQ」,帮助公众看病更简单、生活更健康。AQ提供健康科普、就诊咨询、报告解读、健康档案等上百项AI功能,连接全国超5000家医院、近百万医生及200余个名医AI分身。


万兴科技推出AIGC视频创作平台“万兴天幕”,覆盖视频、图片及音频生成三大领域,为创作者提供一站式解决方案。平台具备文生视频、图生视频、视频续写、文生音乐、文生音效及视频智能配乐等功能,支持灵感社区激发创作。
https://mmbiz.qpic.cn/sz_mmbiz_jpg/eaia1NuoOhyUfiaKrFHo6QfHKL3jD6Ix92xqiaZwRqPrycQGTxDbgpia2x6XOaAl0wp3icvA0psuvwRcH1yEdlLpPFQ/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1

饿了么上线国内首个骑手端智能体AI助手“小饿”,骑手可以通过语音交互,可完成接单、确认到店等操作,减少手动步骤。能主动提醒取货、送达,分析订单热力图,优化接单策略。
https://mmbiz.qpic.cn/mmbiz_jpg/VK1q5dXSOhQLMDuQNHg9zMlqj3G2Dj4bKVfynXMKk5WQpZgTDEzGMR2zjJgibe9QNehdyrbA27DxicRh2SmHnxRQ/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1

https://mmbiz.qpic.cn/mmbiz_jpg/VK1q5dXSOhQLMDuQNHg9zMlqj3G2Dj4bzn1DbqMKGictqbUmwcGJK1BibQNoBfzwK7wHd3C5qb4yezaqaqEzbqxg/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1

阿里云百炼与支付宝联合推出业内首发的“AI打赏”功能。开发者在阿里云百炼平台上可为Agent应用配置打赏功能,用户打赏金额将直接转入开发者个人支付宝钱包。

小米发布小米AI眼镜,被视为小米“人车家全生态”战略的一部分,可能与汽车、智能家居等场景联动。小米AI眼镜售价可能在999-1299元,有望凭借价格优势抢占市场份额。

FellouAI浏览器上线,用户只需输入自然指令,可完成跨平台复杂操作,任务成功率从31%提升至80%。支持信息填报、代码编写、招聘流程、数据分析等多种场景,本地化运行保障数据安全。
https://mmbiz.qpic.cn/mmbiz_png/0Gia5TK5SPW7GFV6pEs0gpXUxGlkhhEatIWDxtEgLT9fdP8JvqDibG3Mw15b104qFy31YlVpQ4fYeJz6mp87TUxw/640?wx_fmt=png&from=appmsg&watermark=1&tp=webp&wxfrom=5&wx_lazy=1

字节上线“探饭”AI产品,为用户提供全方位的美食智能向导服务,包括探店推荐、菜品推荐、美食攻略、AI点菜、团购购买和外卖下单等功能。用户可通过“PK比店”功能对比店铺,能在地图上寻找美食店并导航。


墨刀官方上线AIPPT功能,用户仅需输入一句话,可快速生成包含封面、目录、章节标题及配套文案思路的PPT草稿,自动匹配排版、配图和配色。

百度发布文心快码Comate AI IDE,是行业首个多模态、多智能体协同的AI IDE。首创设计稿一键转代码功能,可将Figma设计稿精准转化为高可用代码,节省80%重复劳动。IDE具备AI辅助编码全流程、多智能体协同、多模态能力增强等核心能力,支持MCP对接外部工具,适配多种开发场景。
https://mmecoa.qpic.cn/sz_mmecoa_jpg/y4KvDFvicbHw5bRdkXWYTPhJ5wdqRp7icxb6PDasYxYu9wXwffNjxfY8FcOv0BHuPzsPQLWTP75uRhC9TeOHOPVg/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=10005&wx_lazy=1

网易有道开源“子曰3数学模型”(Confucius3-Math),是国内首个专注于数学教育且可在单块消费级GPU上高效运行的开源推理模型。在多项数学推理任务中表现优异,在高考数学题评测框架中得分高达98.5分,推理性能是通用大模型DeepSeek R1的15倍,服务成本低至每百万token 0.15美元。
https://mmecoa.qpic.cn/mmecoa_png/RO1lWBXEjp6Kg0F5R9ro309241mic5Yv7vAw65s1TlcKnpIGBsCPw4sDe5u7kcrDY1NuDj79HTk6lb3XYkFT0AQ/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=10005&wx_lazy=1

MiniMax推出语音技术更新——Voice Design音色设计功能。支持用户通过自然语言描述音色,实现精准控制,生成不存在的音色。
https://mmbiz.qpic.cn/mmbiz_png/q4wL2iaHZfGkGQhHZ7wGA1e5ASg2ib9UyTywPbPoE4bcY6C5Wz9gemM5UIP0FozaRzVPk4b9psojIkRfDDDOt3XA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

Kimi发布Agent——Kimi-Researcher(深度研究),可自主规划任务执行流程,包括澄清问题、深入思考、主动搜索、调用工具等,最终交付深度研究报告及动态可视化报告。


华为发布盘古大模型5.5,包含五大基础模型,覆盖自然语言处理(NLP)、多模态、预测、科学计算、计算机视觉(CV)等领域。盘古Ultra MoE是准万亿参数的深度思考模型,达到国内领先水平;盘古Pro MoE在SuperCLUE千亿参数模型榜单中并列国内第一。
https://mmbiz.qpic.cn/sz_mmbiz_png/KmXPKA19gW8758kRUcUccBmV2CyjWMU2jia84ANVuJoBx2CibOJsSxk5QWibJ4xKzQa3NPTZ6VYiaicAgZozmsDVIYw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1


02
【国际】
谷歌于推出了一款名为 Doppl 的实验性新应用,旨在通过人工智能技术,让用户直观地看到不同服装穿在自己身上的效果。这款应用利用AI生成用户穿着服装的虚拟形象,甚至能将静态图像转换为动态视频,为用户提供沉浸式的试穿体验。


Black Forest Labs 推出 FLUX.1 Kontext 图像生成与编辑模型。模型基于文本和图像提示,支持上下文感知的图像处理,具备角色一致性保持、局部编辑、风格转换等功能。

谷歌推出Gemini CLI(命令行界面),工具将AI问答、内容生成等功能集成到开发者终端界面,支持高达100万个token的上下文窗口,与Gemini Code Assist代码助手深度集成,支持谷歌搜索。

谷歌DeepMind发布AlphaGenome模型,用于预测人类DNA序列中单个变异或突变的影响。模型可处理长达100万字母的DNA序列,预测数千个分子属性,通过比较突变与未突变序列进行评分。

谷歌DeepMind推出首个本地具身智能模型Gemini Robotics On-Device。模型可在机器人本地运行,无需依赖云端,具备强大的离线操作能力,能遵循自然语言指令完成精细任务,如拉开袋子、叠衣服等。支持多种机器人本体部署,响应延迟低,能快速适应新任务,仅需50到100个演示样本可学会新动作。


ElevenLabs发布11ai的AI个人语音助理产品,主打语音优先设计,支持多通道处理(MCP),用户可通过语音指令完成日程规划、任务管理、信息查询等操作,可与Notion、Linear等工具对接。

微软发布创新小参数模型Mu。Mu仅含3.3亿参数,性能却可比肩微软Phi-3.5-mini模型,且体量小10倍左右。在配备NPU的笔记本上响应速度超每秒100 tokens,表现优异。

特斯拉正式上线自动驾驶出租车服务Robotaxi,首批受邀用户可支付4.2美元体验。目前服务处于试运营阶段,仅限特定区域和受邀用户使用,运营时间为早上6点至午夜12点。车内配备安全监控员,车辆在复杂路况下需远程操作员介入。

Meta与欧克利联合发布第三代AI眼镜——Oakley Meta HSTN,主打运动场景,具备拍照、录视频、语音问AI、一键分享等功能,支持透明、变色、偏光镜片,续航达8小时,配合充电盒可达48小时。


扎克伯格被曝花数月整理“顶尖名单”,查论文寻觅目标,甚至向个别人开出了1亿美元的高薪,以期这些人才们能加入自己的“梦之队”——一个专注于“超级智能”(即比人类还聪明)的新实验室。
页: [1]
查看完整版本: AI简报:AI创新持续爆发(2025.6.23-2025.6.29)