大模型文件名后缀全解
精度、规模与技术标准
在下载和配置模型(如 ComfyUI 或 Ollama)时,文件名中的后缀直接决定了你的显卡能不能跑得动,以及出图/对话的质量。
1. 规模表示法(参数量)
这里的 B 代表 Billion(十亿),指模型参数的数量。
-
1.5B / 3B / 4B:轻量级模型。适合手机端或低显存电脑,速度极快。
-
7B / 8B:主流“甜点级”模型。如 Llama 3-8B、Qwen-7B,兼顾逻辑与速度。
-
14B / 20B / 32B:进阶模型。逻辑能力显著增强,是目前高性能工作流(如你提到的 Qwen 肖像重光照)的常用基底。
-
70B 及以上:重量级模型。通常需要多卡并联或极度压缩才能在个人电脑运行。
2. 数值精度表示法(计算格式)
这决定了每个参数占用多少空间。
| 后缀 | 全称 | 说明 |
| FP32 | Float32 | 全精度。 原始模型,不建议推理使用,极占显存且速度慢。 |
| BF16 | Bfloat16 | 主流标准。 现代显卡(30/40系列)最友好的格式,精度损失几乎为零。 |
| FP16 | Float16 | 半精度。 较老显卡的标准格式,与 BF16 类似,但动态范围稍窄。 |
| FP8 | Float8 | 新锐格式。 显存占用只有 BF16 的一半,40系显卡有硬件级加速,强烈推荐。 |
| INT8 / INT4 | Integer | 整数量化。 极度压缩,通常用于将超大模型塞进普通显卡,会有一定降智。 |
3. 量化技术与变体(纠正与补充)
你提到的 fb4 属于笔误,在 AI 领域对应的应是以下几种常见标注:
-
Q4_K_M / Q5_K_S (GGUF格式):
-
常见于 llama.cpp。
Q4代表 4-bit 量化。 -
后缀
_K_M(Medium) 或_K_S(Small) 代表压缩的精细程度。
-
-
EXL2:
-
针对高性能显卡优化的量化格式,支持自选位宽(如 4.0bpw, 5.0bpw)。
-
-
AWQ / GPTQ:
-
专门针对 4-bit 优化的技术,能让模型在极小空间下保持极高的智商。
-
-
e4m3fn / e5m2:
-
这是 FP8 的细分标准。
e4m3代表 4 位指数和 3 位尾数,是推理最常用的微调格式,你提到的 Qwen 模型即为此类。
-
4. 视觉与功能后缀
针对你使用的 Qwen2.5-VL 等模型,还会有功能缩写:
-
VL (Vision-Language):视觉语言模型,能看图说话。
-
Instruct / Chat:指令/对话对齐版,能听懂人话。
-
Base:底座版,适合开发者拿去二次训练,不擅长直接聊天。
-
Distill:蒸馏版,大模型教出的小模型,小体量但很聪明。
💡 文章总结
“选择模型时,参数量 (B) 看脑容量,精度 (FP8/BF16) 看画质清晰度。 >
如果你是 40 系显卡,FP8_e4m3fn 是目前性能与显存平衡的‘黄金选择’;如果你追求极致稳定且显存充足,BF16 则是永不出错的基石。”