时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

未分类2周前发布 tree
9 0 0
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文第一作者陈谋祥是浙江大学计算机四年级博士生,研究方向为时间序列预测、LLM 代码生成和无偏排序学习。通讯作者刘成昊是 Salesforce 亚洲研究院高级科学家,曾提出时序预测基础模型 Moirai。该工作由浙江大学、道富科技和 Salesforce 共同完成。
机器之心曾在两个月前报道过,大语言模型(LLM)用于时序预测真的不行,连推理能力都没用到。近期,浙大和 Salesforce 学者进一步发现:语言模型或许帮助有限,但是图像模型能够有效地迁移到时序预测领域。

他们提出的 VisionTS 时序预测框架,基于何恺明的代表作 ——MAE 模型。VisionTS 从自然图像(ImageNet)中预训练而无需时间序列微调,即可直接跨界比肩(甚至超越)一众强大的时序预测基础模型,如 Moirai 和 TimesFM 等,而这些基础模型均使用了大量时间序列数据预训练。
这篇论文证明了:计算机视觉和时间序列这两个看似风马牛不相及的领域,可能具有密切联系。其实,这也符合人类的习我们很难从一串数字序列直接看出规律,但如果将其转成一张时序趋势图,就能更容易地从中看出图片变化的规律。
 

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型


  • 论文题目:VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
  • 论文地址:https://arxiv.org/abs/2408.17253
  • 代码仓库:https://github.com/Keytoyze/VisionTS

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

图一:VisionTS 无需时序数据微调,即可在零样本情况下超越最大的时序基础模型 Moirai。
近年来,预训练基础模型(Foundation Models)已经促进了自然语言处理(NLP)和计算机视觉(CV)领域的变革。通过在大量数据上进行预训练,这些模型在各种下游任务中表现出色,甚至在没有见过的数据上也能很好地完成任务。

种趋势正在推动时间序列预测发生重大变化,从传统的「单数据集训练单模型」 转向「通用预测」,即采用一个预训练模型来处理不同领域的预测任务。
目前,训练能够通用预测的时序预测基础模型有两条主要研究路径。第一条路径是尝试把已经在文本数据上训练好的 LLM 应用于时间序列预测任务。然而,由于这两种数据模式之间存在显著差异,这种语言与时序之间的可迁移性最近受到了一些质疑
第二条路径是从零开始收集大量来自不同领域的时间序列大数据集,直接训练一个基础模型(如 Moirai,TimesFM 等)。然而,不同领域的时间序列数据之间在长度、频率、维度和语义上有很大差异,这限制了他们之间的迁移效果。到目前为止,构建高质量的时间序列数据集仍然充满挑战,处于探索阶段。
在本文中,论文作者提出了创新的第三条路径:用预训练好的视觉模型来构建时序预测基础模这是因为图像中的像素变化可以自然地看作是时间序列。这一序列和现实中的时序数据有许多相似的特点:
1. 相似的形式:图像和时序都是连续的,而语言是离散的。
2. 相似的起源:图像和时序是自然信号,源于对真实世界物理现象的观测结果,而语言是人类创造的。
3. 相似的信息密度:图像和时间序列通常包含大量冗余数据,而语言的密度更高。
4. 相似的时序特征:图像中常见的许多特征也在真实世界的时间序列数据中出现,而这些特征在语言中很少见,如下图所示。
 

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型图二:ImageNet 上的一张图片:像素变化序列经常呈现出现实世界时间序列的特点,如趋势性(Trend)、周期性(Seasonality)和稳定性(Stationarity)。

基于这些见解,该论文希望回答这样一个问题:一个在图像上已经训练好的视觉模型,能否直接作为通用时间序列预测的基础模型,一站式加入午餐豪华大礼包?
方法:基于何恺明的视觉 MAE
来预测时间序列

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

图三:VisionTS 架构。
该论文基于提示学习(prompt learning)的思想,将时间序列预测任务重构为 MAE 预训练使用的块级图像补全任务。思路很简单:将时间序列的历史窗口转变为可见的图像块(visible patches),预测窗口转变为被遮挡的图像块(masked patches),如图三所示。
1. 分割(Segmentation)
对于一个长度为 L 的输入序列窗口,第一个目标是将其转换为二维矩阵。首先将其分割成 L/P 个长度为 P 的子序列,其中 P 是周期长度(如果时间序列没有明显的周期性,可以直接设置 P=1)。接着,这些子序列被堆叠成一个二维矩阵,形状 (P, L/P)。
 
2. 标准化(Normalization)
MAE 会对输入进行标准化。因此,该论提出标准化二维矩阵,将其转变为标准差为 0.4 左右的数据。
3. 渲染(Render)
众所周知,每个图像有三个通道。该论简单地将归一化后的矩阵渲染为灰度图像,也就是三个通道都相同。
4. 对齐(Alignment)
考虑到预训练时图像的大小可能与这一矩阵大小不匹配,该论文提出将图像的尺寸从原始的 (P, L/P) 调整为适合 MAE 输入的尺寸。论文作者选择双线性插值来调整尺寸。
5. 重建与预测(Reconstruction & Forecasting)
在得到 MAE 重建的图像后,可以简单地逆转之前的步骤来进行预测。具体来说,论文作者选择将重建的整个图像重新调整回时间序列的分段,然后提取出预测窗口。
实验效果

测试结果显示,VisionTS 在涵盖多个领域的35个基准数据集上表现出色,涉及时序预测的各种场景。

下表展示了部分数据,其中 VisionTS 在无需时序数据微调的情况下,能够惊人地达到最佳预测性能。零样本情况下,能够比肩甚至超越 Moirai(一个在 27B 通用时序数据上训练的时序大模型),甚至超越了少样本训练的 LLM(TimeLLM 和 GPT4TS)以及其他常用的时序预测模型。

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型

这些结果显示,图像→时间序列的迁移能力要强于文本→时间序列,甚至与不同时序数据领域之间的相互迁移能力相当
 
下图展示了 VisionTS 的一个预测样例,包括输入图像(a)、重建图像(b)以及对应的预测曲线(c)。可以发现,VisionTS 恰当地捕捉了这一数据的周期性和趋势性,而 Moirai 和 Seasonal Naïve 忽略了趋势性。
 

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型


更多研究细节,可参考原论文。

时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

© 版权声明

相关文章

暂无评论

暂无评论...