替代MLP的KAN,被开源项目扩展到卷积了

AI最新资讯5个月前发布 tree
69 0 0

今日应用


今日话题


替代MLPKAN,被开源项目扩展到卷积了
替代MLP的KAN,被开源项目扩展到卷积了
 

重点标签 机器之心KANMLP卷积神经网络性能评估

文章摘要


机器之心编辑部报道了一种新型的神经网络架构——KAN(Kolmogorov-Arnold Networks),由来自 MIT 等机构的研究者提出。KAN 旨在作为一种有潜力的MLP(多层感知器)替代方法,它在准确性和可解释性方面优于 MLP,且参数量更少。例如,与 DeepMind 的 MLP 相比,KAN 仅用约 200 个参数就达到了相似的性能,而前者有大约 300000 个参数。

KAN 与 MLP 都拥有强大的数学基础,MLP 基于通用逼近定理,KAN 则基于 Kolmogorov-Arnold 表示定理。KAN 在架构上与 MLP 有所不同,它在边上具有激活函数,而 MLP 在节点上具有激活函数。这种设计使得 KAN 在参数效率上更高,尽管每个 KAN 层比 MLP 层拥有更多的参数。

最近,研究者将 KAN 的理念扩展到卷积神经网络(CNN),提出了KAN 卷积(Convolutional KANs,CKAN)。KAN 卷积与常规卷积类似,但核心区别在于它对每个元素应用可学习的非线性激活函数,而不是内核和图像中相应像素之间的点积。KAN 卷积的内核相当于一个具有 4 个输入和 1 个输出神经元的 KAN 线性层。

在参数方面,假设有一个 KxK 内核,KAN 卷积的参数计数为 K^2(gridsize + 2),而普通卷积只有 K^2。这为激活函数提供了更多的可表达性。

作者进行了初步评估,测试了不同的架构,包括连接到 KAN 线性层的 KAN 卷积层(KKAN)、与 MLP 相连的 KAN 卷积层(CKAN)、在卷积之间进行批量归一化的 CKAN (CKAN_BN)、连接到 MLP 的经典卷积(ConvNet)以及简单 MLP。基于 28×28 MNIST 数据集的测试结果显示,KANConv & MLP 模型与 ConvNet(大)相比达到了可接受的准确度,但参数数量是标准 ConvNet 所需的 7 倍。尽管 KKAN 的准确率略低于 ConvNet Medium,但其参数数量几乎只有后者的一半,显示出该架构的潜力。

作者指出,KAN 卷积网络的性能目前与传统卷积网络相比没有显著提高,这可能是由于使用的是简单数据集和模型。他们认为,随着模型和数据集复杂度的增加,KAN 卷积网络的性能应该会有所提高。同时,随着输入维数的增加,模型的参数数量也会增长得更快。作者计划在未来在更复杂的数据集上进行实验,以进一步探索 KAN 卷积网络的性能。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...