今日应用
今日话题
不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它
文章摘要
文章接着提出了一个问题:基于网络文本数据集得到的Scaling law是否具有普适性?为了回答这个问题,AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。他提出了一种压缩算法gzip,用于预测数据复杂性对扩展性质的影响,并发表了题为”gzip Predicts Data-dependent Scaling Laws”的论文。
Pandey的研究方法是通过信息论方法,使用概率式上下文无关语法(PCFG)来直观控制文本数据的复杂度。PCFG是一种可以建模自然语言、代码等的句法复杂度可控的设置。通过调整PCFG的句法性质,Pandey生成了6个具有不同复杂度的数据集,并训练了不同大小的语言模型,记录了它们在不同训练步数下的结果。他发现Scaling law的参数会随句法复杂度而变化,并使用gzip计算了数据集中每个token序列的可压缩率(compressibility)中值作为复杂度度量。
实验结果表明,随着训练数据的可压缩率降低(更加复杂),Scaling law的计算最优边界也会逐渐从参数量偏向数据大小。Pandey还测量了真实世界的代码和自然语言数据集的可压缩率,发现代码数据集的可压缩率更大,因此可能服从不同的Scaling law。
文章最后讨论了如何根据gzip可压缩率计算数据敏感的Scaling law,并提出了一个数据依赖型的Scaling law公式。Pandey的研究表明,Scaling law依赖于训练数据,而gzip可压缩率可以很好地预测数据复杂度对扩展性质的影响。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...