KAIYUN中国·官方网站-开云中国门户入口

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024

发布时间:2024-12-03 09:21人气:

  研究人员提出了一种方法,能够在领域数据分布持续变化的动态环境中,基于随机时刻观测的数据分布,在任意时刻生成适用的神经网络,实现前所未有的泛化能力。

  在实际应用中,数据集的数据分布往往随着时间而不断变化,预测模型需要持续更新以保持准确性。

  然而,传统方法假设领域数据在固定时间间隔内收集,忽视了现实任务中数据集采集的随机性和不定时性,无法应对数据分布在连续时间上的变化。

  为此,研究人员提出了连续时域泛化任务,并设计了一个基于模型动态系统的时域泛化框架Koodos,使得模型在连续时间中与数据分布的变化始终保持协调一致。

  下图展示了模型在领域数据随时间发生旋转和膨胀时的泛化表现。通过在一些随机时间点(蓝色标记点)的观测,模型可以在任意时刻生成适用的神经网络,其决策边界始终与数据分布保持协调一致。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图1)

  Koodos通过库普曼算子将模型的复杂非线性动态转化为可学习的连续动态系统,同时利用先验知识以确保泛化过程的稳定性和可控性。实验表明,Koodos显著超越现有方法,为时域泛化开辟了全新的研究方向。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图2)

  研究人员在代码库中提供了详细的逐步教程,涵盖了Koodos的实现、核心概念的解读以及可视化演示。整个教程流程紧凑,十分钟即可快使掌握Koodos的使用方法,力荐尝试!

  在实际应用中,训练数据的分布通常与测试数据不同,导致模型在训练环境之外的泛化能力受限。领域泛化(Domain Generalization, DG)作为一种重要的机器学习策略,旨在学习一个能够在未见目标领域中也保持良好表现的模型。

  近年来研究人员发现,在动态环境中,领域数据(Domain Data)分布往往具有显著的时间依赖性,这促使了时域泛化(Temporal Domain Generalization, TDG)技术的快速发展。

  时域泛化将多个领域视为一个时间序列而非一组独立的静态个体,利用历史领域预测未来领域,从而实现对模型参数的提前调整,显著提升了传统DG方法的效果。

  然而,现有的时域泛化研究集中在「离散时间域」假设下,即假设领域数据在固定时间间隔(如逐周或逐年)收集。

  基于这一假设,概率模型被用于预测时域演变,例如通过隐变量模型生成未来数据,或利用序列模型(如LSTM)预测未来的模型参数。然而在现实中,领域数据的观测并不总是在离散、规律的时间点上,而是随机且稀疏地分布在连续时间轴上。

  例如,图1展示了一个典型的例子——基于推文数据进行社交媒体舆情预测。与传统TDG假设的领域在时间轴上规律分布不同,实际中只能在特定事件(如总统辩论)发生时获得一个域,而这些事件的发生时间并不固定。

  同时,概念漂移(Concept Drift)在时间轴上发生,即领域数据分布随着时间不断演变:如活跃用户增加、新交互行为形成、年龄与性别分布变化等。理想情况下,每个时态域对应的预测模型也应随时间逐渐调整,以应对这种概念漂移。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图3)

  图1:连续时域泛化示意图。图中展示了通过推文训练分类模型进行舆情预测。其中训练域仅能在特定政治事件(如总统辩论)前后采集。研究人员的目标是通过这些不规律时间分布的训练域来捕捉分布漂移,最终使模型能够推广到任意未来时刻

  1. 事件驱动的数据采集:仅在特定事件发生时采集领域数据,事件之间没有数据。

  2. 流数据的随机观测:领域数据在数据流的任意时间点开始或结束采集,而非持续进行。

  3. 离散时态域但缺失:尽管领域数据基于离散时间点采集,但部分时间节点的领域数据缺失。

  为了应对这些场景中的模型泛化,研究人员提出了「连续时域泛化」(Continuous Temporal Domain Generalization, CTDG)任务,其中观测和未观测的领域均分布于连续时间轴上随机的时间点。

  CTDG关注于如何表征时态领域的连续动态,使得模型能够在任意时间点实现稳定、适应性的调整,从而完成泛化预测。

  CTDG任务的挑战远超传统的TDG方法。CTDG不仅需要处理不规律时间分布的训练域,还能够让模型泛化到任意时刻,即要求在连续时间的每个点上都能精确描述模型状态。

  而TDG方法则仅关注未来的单步泛化:在观测点优化出当前模型状态后,只需将其外推一步即可。

  该特性使得CTDG区别于TDG任务:CTDG的关键在于如何在连续时间轴上同步数据分布和模型参数的动态演变,而不是仅局限于未来某一特定时刻的模型表现。

  具体而言,与TDG任务相比,CTDG的复杂性主要来自以下几个尚未被充分探索的核心挑战:

  CTDG要求在连续时间轴上捕捉领域数据的动态,并据此同步调整模型状态。然而,数据动态本身难以直接观测,需要通过观测时间点来学习。此外,模型动态的演变过程也同样复杂。理解数据演变如何驱动模型演变构成了CTDG的首要挑战。

  领域数据的预测模型通常依赖过参数化(over-parametrized)的深度神经网络,模型动态因此呈现出高维、非线性的复杂特征,导致模型的主动态嵌藏在大量潜在维度中。如何有效提取并将这些主动态映射到可学习的空间,是CTDG任务中的另一重大挑战。

  为实现未来任意时刻的泛化,CTDG必须确保模型的长期稳定性。此外,在许多情况下,用户可能拥有数据动态的高层次先验知识。如何将这些先验知识嵌入CTDG的优化过程中,进而提升泛化的稳定性和可控性,是一个重要的开放性问题。

  在CTDG中,一个域D(t)表示在时间t采集的数据集,由实例集 组成,其中 和N(t)分别为特征值,目标值和实例数。

  研究重点关注连续时间上的渐进性概念漂移,表示为领域数据的条件概率分布P(Y(t)X(t))随时间平滑变化。

  在训Kaiyun官方中国练阶段,模型接收一系列在不规律时间点T={t1,t2,…,tT}上收集的观测域{D(t1),D(t2),…,D(tT)},其中每个时间点ti∈T是定义在连续时间轴R+上的实数,且满足t1 2… T

  在每个ti∈T上,模型学习到领域数据D(ti)的预测函数g(⋅;θ(ti)),其中θ(ti)表示ti时刻的模型参数;CTDG的目标是建模参数的动态变化,以便在任意给定时刻s∉T上预测模型参数θ(s),从而得到泛化模型g(⋅;θ(s))。

  在后续部分中,使用简写符号Di、Xi、Yi和θi,分别表示在时间ti上的D(ti)、X(ti)、Y(ti)和θ(ti)

  该方法通过模型与数据的同步、动态简化表示,以及高效的联合优化展开。具体思路如下:

  研究人员证明了连续时域中模型参数的连续性,而后借助神经微分方程(Neural ODE)建立模型动态系统,从而实现模型动态与数据动态的同步。

  将高维模型参数映射到一个结构化的库普曼空间(Koopman Space)中。该空间通过可学习的低维线性动态来捕捉模型的主要动态。

  将单个领域的模型学习与各时间点上的连续动态进行联合优化,并设计了归纳偏置的约束接口,通过端到端优化保证泛化的稳定性和可控性。

  首先假设数据分布在时间上具有连续演化的特性,即条件概率分布Pt(YX)随时间平滑变化,其演化规律可由一个函数f所描述的动态系统刻画。

  尽管真实世界中的渐进概念漂移可能较为复杂,但因概念漂移通常源于底层的连续过程(如自然、生物、物理、社会或经济因素),这一假设不失普适性。

  基于上述假设,模型的函数功能空间g(⋅;θt)应随数据分布变化同步调整。

  这一结果表明,如果数据分布的演化在时间上具有连续性,那么θt的演化过程也具有连续性,即模型参数会随数据分布的变化而平滑调整。上式为θt建立了一个由微分方程描述的模型动态系统。

  由于数据动态f的具体形式未知,直接求解上述微分方程并不可行。为此,引入一个由神经网络定义的连续动态系统,用可学习的函数h(θt,t;ϕ)描述模型参数θt的变化。通过鼓励模型动态和数据动态之间的拓扑共轭(Topological Conjugation)关系使h逼近真实动态。

  具体而言,拓扑共轭要求通过泛化获得的模型参数与直接训练得到的参数保持一致。为此,设定以下优化目标,以学习h的参数ϕ:

  其中,θi通过在时刻ti的领域上直接训练获得, 则表示从时间t j 通过动态h演变至t i 的泛化参数:

  通过这一优化过程,可以建立模型动态与数据动态之间的同步机制;借助动态函数h,可以在任意时刻精确求解模型的状态。

  在实际任务中,预测模型通常依赖于过参数化的深度神经网络,使得模型动开云网站态h呈现为在高维空间中纠缠的非线性动态。直接对h建模不仅计算量大,且极易导致泛化不稳定。

  然而,h受数据动态f的支配,而数据动态通常是简单、可预测的。这意味着在过参数化空间中,模型的主动态(Principal Dynamics)可以在适当转换的空间内进行更易于管理的表示。

  受此驱动,研究人员引入库普曼理论(Koopman Theory)来简化复杂的模型动态。库普曼理论在保持动态系统特征的同时将复杂的非线性动态线性化。

  具体而言,定义一个库普曼嵌入函数ϕ,将原始的高维参数空间映射到一个低维的库普曼空间中:

  其中,z表示库普曼空间中的低维表示。通过库普曼算子K,可以在线性空间中刻画z的动态:

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图4)

  一旦获得了简化的动态表示,可以在库普曼空间中更新模型参数,而后将其反映射回原始参数空间:

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图5)

  最终,通过库普曼算子的引入,实现了对模型动态的简化,保证了泛化过程的稳健性。

  1. 预测准确性:通过最小化预测误差,使预测模型在每个观测时间点都能准确预测实际数据。

  2. 泛化准确性:通过最小化预测误差,使泛化模型在每个观测时间点都能准确预测实际数据。

  3. 重构一致性:确保模型参数在原始空间与库普曼空间之间的转换具有一致性。

  4. 动态保真性:约束库普曼空间的动态行为,使得映射后的空间符合预期的动态系统特征。

  5. 参数一致性:确保泛化模型参数映射回原始空间后与预测模型参数保持一致。

  引入库普曼理论的另一优势在于,可以通过库普曼算子的谱特性来评估模型的长期稳定性。此外,还可以在库普曼算子中施加约束来控制模型的动态行为。

  3、若特征值实部为零,系统可能表现出周期性行为。通过分析这些特征值的分布,可以预测系统的长期行为,识别模型在未来是否可能出现崩溃的风险。

  1. 周期性约束:当数据动态为周期性时,可将库普曼算子K设为反对称矩阵,使其特征值为纯虚数,从而使模型表现出周期性行为。

  2. 低秩近似:将K表示为低秩矩阵,有助于控制模型的自由度,避免过拟合到次要信息。

  通过这些手段,不仅提高了泛化的长期稳定性,还增强了模型在特定任务中的可控性。

  包括Rotated 2-Moons和Rotated MNIST数据集,通过在连续时间区间内随机生成时间戳,并对Moons和MNIST数据按时间戳逐步旋转生成连续时域。

  线. 事件驱动数据集Cyclone:基于热带气旋的卫星图像预测风力强度,气旋发生日期对应连续时域。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图6)

  表1显示,Koodos方法在所有数据集上展现了显著的性能提升。在合成数据集上,Koodos能够轻松应对持续的概念漂移,而所有基线方法在这种场景下全部失效。

  为直观展示泛化效果,研究人员在Rotated 2-Moons数据集上进行了决策边界的可视化。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图7)

  结果清晰地表明,基线方法在应对连续时域的动态变化时表现不足。随着时间推进,决策边界逐渐偏离理想状态。尤其是最新的DRAIN方法(ICLR23)在多步泛化任务中明显失效。

  为更深入地分析模型的泛化能力,通过t-SNE降维,将不同方法的模型参数的演变过程(Model Evolution Trajectory)在隐空间中可视化(图3)。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图8)

  可以看出,Koodos的轨迹呈现出平滑而有规律的螺旋式上升路径,从训练域平滑延伸至测试域。

Kaiyun中国:让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命|NeurIPS2024(图9)

  图4:非受控和受控条件下的极长期泛化预测模型轨迹。a:部分训练域数据;b:不受控,模型最终偏离预期;c:受控,模型始终稳定且准确。


0830-2509596