用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高

AI最新资讯1个月前发布 tree
21 0 0

今日应用


今日话题


神经架构搜索LLM瘦身,模型变小,准确度有时反而更高
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
 

重点标签 神经架构搜索LLM瘦身InstaTune量化技术性能优化

文章摘要


Intel Labs的研究团队通过神经架构搜索(NAS)技术,成功为大型语言模型(LLM)实现了模型大小的显著降低,同时在某些情况下还提升了模型的准确度。这项研究的核心是针对LLaMA2-7B模型的实验,通过使用InstaTune方法,一种在微调阶段通过现成预训练权重创造超级网络的技术,有效降低了模型的复杂性和大小。研究团队首次高效地应用了单次NAS,发现这种方法在性能上优于传统的剪枝和稀疏化技术,并且不需要额外的恢复微调步骤。

研究中使用了轻量迭代式神经架构搜索(LINAS)算法,结合了NSGA-II搜索和网络性能预测器,以在真实数据上迭代评估子网络,从而找到最优的网络配置。通过这种方法,研究团队在AI2推理挑战(ARC)、大规模多任务语言理解(MMLU)、TruthfulQA和WinoGrande等任务上进行了评估,并发现了一些子网络架构在保持或提高准确度的同时,显著减小了模型大小。

此外,研究团队还探索了使用定点(INT8)量化技术来进一步压缩网络,结果表明量化对准确度的影响很小,但能显著降低模型大小。例如,在MMLU任务上,量化后的子网络在准确度几乎没有损失的情况下,模型大小降低了2.5倍。

最后,研究团队对搜索空间进行了分析,发现对于某些任务,如ARC-c、MMLU和TruthfulQA,LLaMA2-7B存在过度参数化的现象,而没有一种单一的架构启发式方法适用于所有任务。这项研究为大型语言模型的优化和硬件适应性提供了新的视角和方法。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...