Pytorch 显存管理机制与显存占用分析方法

AI最新资讯4个月前发布 tree
49 0 0

今日应用


今日话题


PyTorch 显存管理机制与显存占用分析方法
Pytorch 显存管理机制与显存占用分析方法
 

重点标签 PyTorch显存管理CUDA API内存分配内存单位内存申请频率显存申请显存释放显存占用分析示例代码

文章摘要


本文深入分析了PyTorch框架在内存管理方面的技术细节,尤其是CUDA API的集成和优化。作者通过研究PyTorch 2.3.0版本,详细介绍了GPU内存分配机制、内存单位的定义以及降低内存申请频率的有效策略。

文章首先介绍了研究背景和环境配置,包括操作系统、驱动版本、GPU型号、CUDA版本、PyTorch版本和Python版本。接着,作者阐述了计算机中的内存单位和符号约定,例如1 Byte等于8 Bits,以及不同数据类型所占用的字节数。

显存管理机制方面,文章详细描述了PyTorch如何基于CUDA API实现显存管理逻辑,包括动态申请和二次分配的设计思路。动态申请允许根据用量实时向GPU请求显存,而二次分配则是将显存申请与使用分离,先申请一个显存块Segment,再从Segment中分离出子块Block供用户使用。

文章进一步探讨了显存申请的具体流程,包括如何根据未分配Block所在Segment的大小将其划入large pool或small pool,以及如何从未分配显存的pool中查找满足tensor size要求的Block。此外,还讨论了Reserved Memory、Large Pool和Small Pool的概念,以及Requested Size和Allocated Size的区别。

显存释放方面,文章指出tensor被删除后,其对应的Block空间会归还给Pytorch显存管理器,但只有手动调用`torch.cuda.empty_cache()`才有可能释放这些Blocks空间。

文章还介绍了显存占用分析方法,包括使用PyTorch API查看当前进程的显存占用、查看各进程的显存占用、查看指定设备的剩余可用显存,以及使用高阶API进行更精细化的显存占用分析。此外,还提到了Snapshot工具和nvidia-smi命令行工具的使用。

最后,文章提供了一个简易全连接网络的训练代码示例,展示了如何使用3.1和3.2节中提到的分析方法,并对每个操作运行前后的显存变化进行了断言。

通过本文的深入分析,读者可以更好地理解PyTorch框架在内存管理方面的技术细节,以及如何有效地进行显存申请和释放,从而提高程序的性能和显存利用率。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...