CUDA out of memory
一句话:显卡显存不够导致模型加载、训练或推理失败,是本地AI和深度学习常见报错。
它是什么
CUDA out of memory通常表示GPU显存不足。常见于加载大模型、批量推理、训练模型、图片生成或本地部署时。它不一定是代码坏了,更多时候是模型太大、输入太长、batch太高或显存被其他程序占用。
适合干什么
- 本地部署大模型的人
- 跑AI绘图的人
- 训练或微调模型的开发者
- 使用PyTorch、CUDA环境的人
不适合干什么
- CPU环境报错排查
- 浏览器网页加载失败
- 普通网络API请求错误
普通人怎么用
- 先查看显存占用
- 关闭其他占显存程序
- 降低模型大小或量化级别
- 减少输入长度和batch size
- 重启运行环境后再试
进阶用户怎么用
- 使用更低精度或量化模型
- 开启梯度检查点或分批处理
- 把任务拆成更小批次
- 使用多GPU或云端GPU
- 监控峰值显存而不是只看平均占用
常见误区
- 以为重装软件就能解决显存不足
- 模型和输入同时太大
- 后台还有其他程序占用GPU
- 只降低batch,不检查上下文长度
和相似工具的区别
- CUDA out of memory vs 内存不足:CUDA out of memory通常指GPU显存不足,普通内存不足指系统RAM不够。
- 显存不足 vs 驱动错误:显存不足是资源不够,驱动错误通常是CUDA、显卡驱动和框架版本不匹配。
入门步骤
- 记录完整报错
- 查看GPU显存占用
- 降低batch或模型大小
- 缩短输入
- 重启环境
- 仍失败则换更小模型或云端GPU
推荐工具(第三方)
nvidia-smi、PyTorch、Ollama、LM Studio、Colab