AI教母李飞飞王者归来!融资2.3亿美金,从ImageNet的视觉分类到世界模型的空间智能,李飞飞给出了她的AI进化路线图.
作者:微信文章人工智能已经学会了看见。现在,它必须学会存在。
李飞飞,这位现代计算领域最低调却影响深远的核心人物之一,正携一个全新项目重返前沿。
她的目标不只是构建更智能的系统,而是要赋予机器空间智能——一种理解、导航并与三维世界互动的能力。
她正在为一个新世界构建基石。在这个世界里,人工智能不仅能标记物体,还将能栖身于各种环境、模拟行为,并与人类在物理空间中协作。
她联合创立的公司 World Labs 正在开发一类名为世界模型的系统。这些模型不仅仅是识别模式,它们构建关于空间的内部表征,推断几何结构,跨时间追踪物体,并模拟环境中的因果互动。简而言之,无论世界是数字的还是物质的,它们都能对其进行建模。
这是对人工智能领域一个深刻且未解难题的挑战,也延续了定义李飞飞职业生涯的独特模式:她不追逐风口,而是创造未来。而每一次,整个领域都因她而重塑格局。
作为基础设施的视觉
2012 年,一个名为 AlexNet 的深度学习模型,为人工智能开启了一个波澜壮阔的新纪元。
它并非第一个处理图像的神经网络,但它是第一个在规模、速度和准确性上达到不容忽视水平的模型。AlexNet 不仅赢得了 ImageNet 挑战赛,更是让所有先前的技术黯然失色。
它使用卷积层来处理视觉数据,使用 ReLU 激活函数来加速学习,并利用 dropout 正则化来减少过拟合。
这些在今天是标准技术,但在当时却堪称颠覆。其成功的关键不仅在于架构,更在于数据。
AlexNet 在一个名为 ImageNet 的数据集上进行训练——这是一个规模宏大、标注精良的图像与物体类别资料库。ImageNet 包含超过 1400 万张图像,分属 20000 个类别。它不仅庞大,而且干净、结构化、有深度。而整个项目,由时任普林斯顿大学助理教授的李飞飞亲自领导。
这个项目的构想始于 2006 年(比著名的 Transformer 论文早了整整十年),源于李飞飞的一个信念:人工智能,特别是计算机视觉的未来,依赖于大规模、高质量的数据集,而不仅仅是更优越的算法。
李飞飞深知,视觉系统并非凭空从算法中诞生。它们需要一个共享的基底,一个通用的视觉知识库,让所有模型都能在此之上训练、比较和持续改进。
ImageNet 让计算机视觉变得可复现。它创建了一个迫使模型不断精进的基准,也营造了一个让研究得以加速的共享环境。它没有追逐一时的创新,而是为创新的涌现与累积创造了必要条件。
ImageNet 是最纯粹意义上的奠基之作。通过构建它,李飞飞为现代计算机视觉铺平了道路。
从标签到世界
如今,这位“人工智能教母”正挑战一项远为艰巨的任务。
2024 年,她联合创立了 World Labs 公司,致力于开发名为世界模型的全新模型。这些系统旨在超越传统的感知和注意力机制,为机器赋予对物理空间的内部表征能力。
当前多数人工智能都在扁平化的领域中运作。语言模型处理的是文本符号,视觉模型处理的是像素网格。即便是视频模型,通常也仅仅将时间视为另一个数据维度。
这些系统功能强大,但它们与物理世界是脱节的。它们无法形成对空间的连贯理解,无法区分“在某物附近”和“在某物之后”的本质不同。
它们不知道一个物体“遥不可及”或被“部分遮挡”究竟意味着什么。它们无法在环境中穿行,也无法模拟自己若是穿行其中将会发生什么。
这是一个具有深远影响的盲点。没有空间智能,机器人就无法在现实世界中高效工作。自动驾驶汽车能识别停车标志,却无法推理路上行人的意图。虚拟助手可以在屏幕上回答问题,却无法在物理空间中规划行动。即使是那些从文本生成三维物体的模型,也常常依赖于经验性的规则,而非真正的理解。
World Labs 正试图弥合这一鸿沟。
它的模型能将二维输入转化为连贯的三维表征,能模拟完整的环境。它们能理解“把杯子放到顶层架子上”这样的指令,并推断出完成这一任务所需的动作、抓握方式和运动轨迹。它们能够渲染世界并与之互动,而不仅仅是识别图像的表面。
这种转变与生物进化惊人地相似。在进化史上,视觉先于认知出现。生物体必须先感知空间,然后才能在其中行动。感知,为后续的行动、规划和高级智能的诞生创造了基底。
李飞飞相信,人工智能必须遵循同样的发展弧线。没有空间模型,智能将永远是抽象的;拥有了空间模型,智能才真正得以“具身化”。
智能的影响力
一旦成功,其涟漪效应将远超实验室的范畴。空间智能将解锁跨越各行各业的全新能力。这些并非遥远的猜想,而是机器在获得建模和推理空间能力后,必然带来的直接变革。
机器人技术: 机器人将能在家庭、工厂等动态、非结构化的环境中安全导航和精准操作。自动驾驶系统: 汽车不仅能识别物体,更能预测行人和其它车辆的复杂行为意图。增强现实: 系统能够将数字信息无缝地叠加在物理世界之上,并与之进行有意义的交互。生成式 AI: 能够创造出不仅看起来真实,而且在物理上可信、功能上合理的虚拟三维内容。
这些并非小众应用,而是构筑物理世界人机交互的根基。没有空间智能,机器只能描述世界;拥有了空间智能,它们才能真正地在世界中行动。
前方的挑战
实现如此高度的智能,代价不菲。空间模型需要海量的数据、高保真的模拟环境以及超大规模的计算资源。它的训练过程缓慢,泛化能力难以提升,推理成本也极为高昂。这些制约因素中的任何一个,都是巨大的挑战。
李飞飞对此了然于心。她也是国家级 AI 基础设施的主要倡导者之一。通过 NAIRR 试点计划等举措,她正努力确保计算资源的稀缺不会成为锁死行业进步的瓶颈。
即便如此,投资者的信心已经十分高涨。World Labs 一经亮相,便获得了 2.3 亿美元的融资,估值超过 10 亿美元。李飞飞一出手,整个领域便会随之重新布局。
世界模型
预测型智能与理解型智能之间,存在着本质的区别。当前绝大多数系统属于前者。
它们识别模式并返回输出,但并不构建关于世界的内在模型,不模拟因果关系,也不受物理现实的约束。
李飞飞正试图构建能够做到后者的系统。她的目标不仅仅是追求更高的性能指标,更是为智能赋予更坚实的现实根基。一种知道自己身在何处、明白自己能做什么的智能。
我们教会了机器识别汽车和猫,教会了它们回答问题和编写代码。现在,我们通过教它们肯定前件和否定后件等逻辑规则来帮助它们进行推理。
而下一步,就是赋予它们一个“身体”——不一定是物理意义上的,而是一个空间意义上的身体。
一张能让它们推理运动、接触、结构和几何的心理地图。
如果她成功了,我们将不仅仅是与机器进行信息交互,我们将能与它们共存于同一个空间——无论是数字空间,还是物理空间。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
页:
[1]