LLM的一些基础知识：参数和内存估计

介绍：

基于 Transformer 架构的大型语言模型 (LLM) 已变得越来越普遍。例如，Mistral AI 团队推出了Mistral 7B 模型。了解其推理、微调和训练的内存需求对于高效部署和利用至关重要。

总结：

— 浮点精度 28 GB、BF16 精度 14 GB、int8 精度 7 GB。此估算可相应应用于其他版本。

训练所需内存：保守估计，在参数数量和类型相同的情况下，推理所需内存约为其四倍。例如，训练具有浮点精度的 7B 模型大约需要 112 GB（28 GB * 4）。

训练大型语言模型的内存要求：

— 使用 AdamW 优化器，需要两倍的参数数量。

— 使用 SGD 优化器时，需要与参数数量相当的内存。

采用 LoRA/QloRA 技术的内存使用情况，以 LoRA 为例：

背景：

在计算机内存/磁盘存储中，基本单位是字节，系统以 1024 为基础。单位有 KB、MB、GB 和 TB。重要的是不要将它们与十进制系统混淆：1 KB = 1024 字节；1 MB = 1024 KB；1 GB = 1024 MB

参数数量：

数据类型：

对于训练好的模型，参数类型可以包括：

参数类型所需的存储越少，性能往往越低。

一般情况下参数数量是首要因素，例如同架构下13B-int8模型一般会比7B-BF16模型表现更好。

估计推理的内存使用量：

虽然其他因素也使用内存，但推理过程中内存使用的主要部分是参数。

例如，Mistral-7B-BF16 模型所需的内存等于参数数量乘以类型大小：70 亿个参数 * 2 字节 = 140 亿字节。因此，140 亿字节 = 14 * 1,000 * 1,000 * 1,000 / 1024 / 1024 / 1024 ≈ 13 GB（考虑 1000/1024）³ ≈ 0.93。
注 1：(1000/1024)³ ≈ 0.93
注 2：出于估算目的，将此比率视为 1 更为简单。因此，对于 7B-BF16 模型，内存需求大约为 7 * 2 = 14 GB。此估算值略高于准确计算值，但这是切实可行的，因为推理需要的内存不仅仅是参数。
假设各种 llama2–13B 版本的预估内存需求，假设相应类型：float：13 * 4 = 52 GB；half/BF16：13 * 2 = 26 GB；int8：13 GB；int4：13 * 0.5 = 6.5 GB。

估计训练的内存使用量：

训练时为了保证模型收敛，参数类型不能为int8或者int4，一般使用float，如果性能稍差，也可以选择BF16。