第一个用物理做计算原语的大规模生成模型Un-0来了,或将AI能耗降低1000倍?
过去十年,人工智能领域主要依赖以 GPU 为中心的数字计算,通过不断增大集群规模、提升带宽、升级 GPU 及优化数据中心来推动 AI 发展。然而,随着模型参数量逼近万亿级别,AI 的“电费账单”和能源消耗已成为制约行业发展的关键瓶颈,引发了对未来能源供应的担忧。
在此背景下,前 Databricks AI 负责人 Naveen Rao 创立的初创公司 Unconventional AI 及其首个模型 Un-0 引起了广泛关注。Un-0 是一个基于“模拟耦合振子系统”的图像生成模型,被视为一种新型物理计算基础的范例。该模型在 ImageNet 64×64 数据集上取得了 6.74 的 FID 分数,其生成图像的质量已接近早期主流传统图像生成方法。Naveen Rao 将 Un-0 描述为“第一个以物理作为计算原语构建的大规模生成模型”,并表示其目标是利用物理系统固有的时间演化特性来完成计算,有望大幅提升能效。他甚至提出了一个雄心勃勃的目标:将 AI 推理的能耗降低至现有水平的千分之一。
Unconventional AI 的目标是构建一种利用物理规律进行计算的新型计算机,以期将现代 AI 的运行能耗降低约 1000 倍。他们提出的核心问题是:能否训练一个物理动力系统来完成大规模图像生成任务?尽管当前最先进的 AI 模型多为基于 Transformer 的传统深度网络,但研究人员一直在探索利用物理系统的动态行为来提高能效,例如通过模拟电路中的噪声、时间变化、电压和电流。这些方法不依赖传统数字计算,而是利用物理系统的自然演化过程。Un-0 正是基于这一思路的一次新尝试,其关键挑战在于如何有效地将 AI 任务映射到物理系统的动态过程中,并验证该物理基础能否比现有硬件更高效地处理现代 AI 工作负载。
Un-0 的工作原理可以类比于多个节拍器协同振动。每个节拍器(振子)都有一个相位(其在周期中的位置),当它们放置在一起时,会通过桌面(耦合)相互影响,并可能逐渐同步。将这种概念扩展到数千个振子,通过不同强度的耦合关系,整个系统会自组织成特定模式。Un-0 的计算核心即为一个大规模振子集群,其中振子间的耦合强度是模型可学习的主要参数。这些振子通常被建模为“Kuramoto 振子”,每个振子遵循一个简单的规则:既按自身频率旋转,又受其他所有振子的牵引而偏移。这种演化过程由一个常微分方程描述,其中耦合矩阵 K 和自然频率 ω 是 Un-0 需要学习的参数,它们共同定义了物理系统。选择振子的原因有二:一是受大脑中节律活动和同步现象的启发,这些现象被认为与计算过程有关;二是工程上的考虑,耦合振子系统可以直接在物理硬件(如 CMOS 电路)上实现,使其物理行为本身完成计算动力学演化。Un-0 的核心理念是,如果物理规律能直接计算 AI 工作负载,那么未来的计算硬件将与当前大不相同。
Un-0 生成图像的过程大致包括五个步骤:首先,将所有振荡器的相位随机初始化;其次,通过一组较小的“条件振荡器”输入类别标签,引导主体振荡器集群向特定方向演化;然后,释放系统,让振荡器在物理动力学作用下相互作用并最终稳定;接着,在特定时间 T 记录所有振荡器的相位,形成一个隐空间数字网格;最后,通过一个参数量占模型不到 13% 的传统解码器,将相位网格转换为图像像素。在训练过程中,模型主要学习振子间的耦合关系(矩阵 K)、每个振子的自然频率 ω,以及解码器的权重。振子系统承担了传统神经网络层原本的功能。这种架构旨在让动力系统本身最大程度地完成计算。与扩散模型或 Flow Matching 等方法不同,Un-0 并不显式指导动力系统的演化,而是通过损失函数反向优化整个动力系统,这需要一种更复杂的损失函数,因为训练信号主要来自最终生成的样本。
Unconventional AI 在 CIFAR-10 和 ImageNet 64×64 数据集上对三种规模的模型进行了训练。结果显示,随着振子数量的增加,模型的 FID 分数持续提升。其中,在 ImageNet 64×64 数据集上最大的模型使用了 16384 个振子,拥有约 3.22 亿参数,FID 达到 6.74。训练过程中采用了新提出的“漂移损失”(Drifting Loss)函数,并结合 DINOv2 特征提取器和 AdamW 优化器进行端到端训练。在评估方面,CIFAR-10 模型使用了 5 万张生成样本,并与参考统计数据进行比较;ImageNet 64×64 模型也使用 5 万张生成样本,并通过 ADM evaluation suite 计算 FID。算力方面,CIFAR-10 模型在单张 B200 GPU 上训练,而 ImageNet 64×64 模型则在 8 张 B200 GPU 上训练。训练瓶颈主要在于“漂移损失”函数的计算,因为它需要使用传统的图像特征提取器并在多个特征视图上进行计算。
在图像生成领域,Un-0 的性能表现与传统和非传统模型进行了比较。在“生成质量 vs 参数数量”的图表上,Un-0 的质量已可媲美一些早期传统生成器,甚至在某些对比中表现更优,例如优于 NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models 和 TRACT。然而,与 EDM 和 GDD 等高性能的后期传统模型相比,Un-0 仍有差距。这意味着 Un-0 并非当前最强的图像生成模型,而更像是一个新研究方向的起点。其性能已接近多个经典生成模型的初始水平,但要达到传统路线的最新前沿,仍需在算法、架构和物理原语层面持续优化。总的来说,Un-0 证明了利用物理动力学系统进行大规模 AI 图像生成的可能性。尽管在软件模拟下的性能尚未达到当前 AI 的顶峰,但它为实现千倍能效比的“非传统 AI 硬件”开辟了一条充满希望的路径。
Naveen Rao 强调,Un-0 的出现表明“计算并不是人类独有的发明”,它普遍存在于自然和物理世界中。所有物理实体的演化过程都蕴含时间维度,而当前的计算系统并未充分利用这一点。Unconventional AI 正在开发的正是这个时间维度。在能效方面,与现有冯·诺依曼架构机器将大量能量消耗在内存与计算单元间的信息传输不同,动力系统将计算和记忆融合于同一实体,并且能容忍噪声,这为节省通信能耗提供了新的机会。Un-0 代表了计算范式向动力系统转变的重要第一步,将智能与动力学联系起来。对于 AI 计算而言,动力学是一种天然的表达框架,神经网络本质上也可视为动力系统,因此两者之间的映射更为直接。Naveen Rao 认为,这在某种程度上绕过了抽象的线性代数,更接近“大脑”的工作方式。
许多网友对 Un-0 的潜力表示期待,认为如果该技术得以广泛应用,将极大地提升性能效率,使得许多本地运行的应用程序成为可能,并称赞其为一项“极其先进的脑科技”。
留下您的精彩評論