百 AI 实战百科

模型量化

AI编程 · AI编程基础

一句话：通过降低模型数值精度，让大模型更省显存、更容易在本地设备运行。

它是什么

模型量化是把模型参数用更低精度表示，从而减少显存和存储占用。简单理解，就是把模型压缩成更轻的版本，让普通电脑也能跑起来，但可能牺牲一部分效果。

适合干什么

本地部署用户
显存有限的开发者
想在笔记本运行模型的人
需要比较模型速度和效果的人

不适合干什么

完全追求最高精度的评测
不愿意做效果对比的人
以为量化后效果完全不变的人

普通人怎么用

先看设备显存和内存
选择常见量化版本
用同一批问题测试多个版本
记录速度、内存占用和回答质量
选一个够用而不是最大的版本

进阶用户怎么用

为不同任务使用不同量化级别
建立固定评测集
关注长文本、代码和数学任务的退化
在生产环境监控延迟和错误率

常见误区

只追求最小文件，不看效果损失
不同模型不同量化混着比较
没有固定测试题
把量化理解成万能加速

和相似工具的区别

量化 vs 蒸馏：量化主要降低数值精度，蒸馏通常是用大模型训练小模型，两者目标都可能是降成本但方法不同。
量化 vs 模型压缩：模型压缩是更大的概念，量化是其中一种常见方法。

入门步骤

确认设备配置
选两个量化版本
准备10个真实问题
比较速度和质量
保留最平衡的一版

推荐工具（第三方）

Ollama、LM Studio、llama.cpp、Hugging Face、Open WebUI