背景
A6000显卡的温度一直都是86度左右,GPU的风扇转速不够大。
我首先把 nvidia的驱动更新了,但是发现风扇依然依然保持在较低的转速。
后面无意间搜到了CoolerControl 这个linux平台的风扇控制软件。设置之后,增加了风扇的转速,现在可以把GPU的温度控制在80度以下。
具体操作
参考教程:https://cn.linux-terminal.com/?p=8335
支持风扇固定转速与按照曲线设置转速。
下述图片是按照这个曲线控制风扇的转速,达到不同的温度,风扇保持不同的转速。不仅可以控制CPU的风扇还可以控制GPU的风扇。
CoolerControl 视频教程:https://www.bilibili.com/video/BV1oF9yYFEvc/
我发现B站和youtube关于CoolerControl软件的教程,其中主要也就是设置下面的曲线。
题外话
A6000显卡温度在85度以上,我早就注意到了,不想折腾,一直都懒得管。我发现在训练模型的时候,windows把GPU的温度压的比较好,一直都70度以下。Windows训练大模型不方便,还是得使用 linux 训练大模型。
我很多次使用 llamafactory 微调大模型的时候,模型训练一半linux系统就崩溃了,必须得按关机键重启。
首先,我便怀疑是不是显卡温度过高触发了硬件的保护机制,导致系统崩溃。后面我发现把GPU的温度压下来后,训练大模型依然会崩溃。
因为nvidia的驱动已经更新过了,不是驱动的问题。于是我把python环境从3.11升级到3.12,再把 llamafactory 的包重新安装了一遍,在装包的过程中,我发现安装了很多与nvidia相关的包。然后再训练大模型就不崩溃了。