用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

AI最新资讯5个月前发布 tree

57 0 0

今日应用

华为AI数字人

华为云提供稳定可靠、安全可信、可持续发展的云服务，致力于让云无处不在，让智能无所不及，共建智能世界云底座。助力企业降本增效，全球300万客户的共同选择。7x24小时专业服务支持，5天内无理由退订，免费快速备案。

今日话题

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

重点标签 神经架构搜索、LLM瘦身、InstaTune、量化技术、性能优化

文章摘要

Intel Labs的研究团队通过神经架构搜索（NAS）技术，成功为大型语言模型（LLM）实现了模型大小的显著降低，同时在某些情况下还提升了模型的准确度。这项研究的核心是针对LLaMA2-7B模型的实验，通过使用InstaTune方法，一种在微调阶段通过现成预训练权重创造超级网络的技术，有效降低了模型的复杂性和大小。研究团队首次高效地应用了单次NAS，发现这种方法在性能上优于传统的剪枝和稀疏化技术，并且不需要额外的恢复微调步骤。

研究中使用了轻量迭代式神经架构搜索（LINAS）算法，结合了NSGA-II搜索和网络性能预测器，以在真实数据上迭代评估子网络，从而找到最优的网络配置。通过这种方法，研究团队在AI2推理挑战（ARC）、大规模多任务语言理解（MMLU）、TruthfulQA和WinoGrande等任务上进行了评估，并发现了一些子网络架构在保持或提高准确度的同时，显著减小了模型大小。

此外，研究团队还探索了使用定点（INT8）量化技术来进一步压缩网络，结果表明量化对准确度的影响很小，但能显著降低模型大小。例如，在MMLU任务上，量化后的子网络在准确度几乎没有损失的情况下，模型大小降低了2.5倍。

最后，研究团队对搜索空间进行了分析，发现对于某些任务，如ARC-c、MMLU和TruthfulQA，LLaMA2-7B存在过度参数化的现象，而没有一种单一的架构启发式方法适用于所有任务。这项研究为大型语言模型的优化和硬件适应性提供了新的视角和方法。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

今日应用

今日话题

文章摘要

文章来源

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

美国空军发布类ChatGPT产品—NIPRGPT

相关文章

暂无评论

热门网址

热门标签