前言：

本课程主要介绍LLM大模型的概念。目前的AI体系或者说AIGC体系产品。主流都是基于大模型的基础上。

虽然本课程有点枯燥，但是稍微了解下它的来龙去脉，可能是一个不错的基础知识掌握。

大模型，顾名思义会很大，这是一个很直观的认知。而模型的概念又有点类似于三维引擎或者三维项目概念中的3D模型的概念。但又有不同。

经过本文，我想你会有一个更直观，清晰的认识。

知识点：

大模型LLM是什么
大模型的科技树
今后我们AIGC中可能用到的几种主要模型。

大语言模型

（英语：large language model，LLM）是一种语言模型，由具有许多参数（通常数十亿个权重或更多）的人工神经网络组成，使用自监督学习或半监督学习对大量未标记文本进行训练。大型语言模型在2018年左右出现，并在各种任务中表现出色。

尽管这个术语没有正式的定义，但它通常指的是参数数量在数十亿或更多数量级的深度学习模型。大型语言模型是通用的模型，在广泛的任务中表现出色，而不是针对一项特定任务（例如情感分析、命名实体识别或数学推理）进行训练。

尽管在预测句子中的下一个单词等简单任务上接受过训练，但发现具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。此外大型语言模型展示了相当多的关于世界的常识，并且能够在训练期间“记住”大量事实。

虽然 ChatGPT 为代表的LLM在生成类人文本方面表现出了卓越的能力，但它们很容易继承和放大训练数据中存在的偏差。

2018年以来，大模型领域的发展科技树。

目前GPT的主流模型情况

模型概述

OpenAI API 由一系列具有不同功能和价格点的模型提供支持。您还可以通过微调对我们的模型进行自定义，以满足您的特定用例。

模型	描述
GPT-4o	速度最快、价格最实惠的旗舰机型
GPT-4 Turbo 和 GPT-4	上一组高智能模型
GPT-3.5 Turbo	一种用于简单任务的快速、廉价模型
DALL·E	根据自然语言提示生成和编辑图像的模型
TTS	一组可以将文本转换为自然语音音频的模型
Whisper	可以将音频转换为文本的模型
Embeddings	一组可以将文本转换为数字形式的模型
Moderation	可以检测文本是否敏感或不安全的微调模型
GPT base	一组无需遵循指令就能理解并生成自然语言或代码的模型
Deprecated	已弃用的型号的完整列表以及建议的替代品

GPT-4o

GPT-4o（“o” 代表“omni”）是我们最先进的模型。它是多模式的（接受文本或图像输入并输出文本），具有与 GPT-4 Turbo 相同的高智能，但效率更高——它生成文本的速度提高了 2 倍，成本降低了 50%。此外，GPT-4o 在我们所有模型中，对非英语语言的视觉和性能都最好。GPT-4o 在 OpenAI API 中可供付费客户使用。

模型	描述	上下文窗口	训练数据
GPT-4O	新的 GPT-4o 我们最先进的多模式旗舰模型，比 GPT-4 Turbo 更便宜、更快。目前指向gpt-4o-2024-05-13。	128,000 个代币	截至 2023 年 10 月
gpt-4o-2024-05-13	gpt-4o目前指向这个版本。	128,000 个代币	截至 2023 年 10 月

GPT-4 Turbo 和 GPT-4

GPT-4 是一个大型多模态模型（接受文本或图像输入并输出文本），由于其更广泛的常识和高级推理能力，它可以比之前的任何模型更准确地解决难题。GPT-4 在 OpenAI API 中可供付费客户使用。与一样，GPT-4 针对聊天进行了优化，但对于使用聊天完成 API 的gpt-3.5-turbo传统完成任务也非常有效。

模型	描述	上下文窗口	训练数据
GPT-4-Turbo 版	新的带视觉的 GPT-4 Turbo 最新的带视觉功能的 GPT-4 Turbo 模型。视觉请求现在可以使用 JSON 模式和函数调用。当前指向gpt-4-turbo-2024-04-09。	128,000 个代币	截至 2023 年 12 月
GPT-4-涡轮-2024-04-09	带有 Vision 模型的 GPT-4 Turbo。Vision 请求现在可以使用 JSON 模式和函数调用。gpt-4-turbo目前指向此版本。	128,000 个代币	截至 2023 年 12 月
GPT-4-Turbo 预览版	GPT-4 Turbo 预览模型。当前指向gpt-4-0125-preview。	128,000 个代币	截至 2023 年 12 月
gpt-4-0125-预览	GPT-4 Turbo 预览模型旨在减少模型无法完成任务的“懒惰”情况。最多返回 4,096 个输出标记。	128,000 个代币	截至 2023 年 12 月
gpt-4-1106-预览	GPT-4 Turbo 预览模型具有改进的指令跟踪、JSON 模式、可重现输出、并行函数调用等功能。最多返回 4,096 个输出标记。这是一个预览模型	128,000 个代币	截至 2023 年 4 月
GPT-4-Vision-预览	GPT-4 模型除了具备所有其他 GPT-4 Turbo 功能外，还具备理解图像的能力。这是一个预览模型，我们建议开发人员现在使用，gpt-4-turbo其中包括视觉功能。目前指向gpt-4-1106-vision-preview。	128,000 个代币	截至 2023 年 4 月
GPT-4-1106-视觉预览	GPT-4 模型除了具备所有其他 GPT-4 Turbo 功能外，还具备理解图像的能力。这是一个预览模型，我们建议开发人员现在使用，gpt-4-turbo其中包括视觉功能。最多返回 4,096 个输出标记。	128,000 个代币	截至 2023 年 4 月
GPT-4 型	目前指向gpt-4-0613。参见持续模型升级。	8,192 个代币	截至 2021 年 9 月
gpt-4-0613	从 2023 年 6 月 13 日起的快照gpt-4，具有改进的函数调用支持。	8,192 个代币	截至 2021 年 9 月
gpt-4-32k	目前指向gpt-4-32k-0613。参见持续模型升级。该模型从未被广泛推广，以支持 GPT-4 Turbo。	32,768 个代币	截至 2021 年 9 月
gpt-4-32k-0613	从 2023 年 6 月 13 日起的快照gpt-4-32k，改进了函数调用支持。该模型从未被广泛推广，以支持 GPT-4 Turbo。	32,768 个代币	截至 2021 年 9 月

对于许多基本任务，GPT-4 与 GPT-3.5 模型之间的差异并不大。然而，在更复杂的推理情况下，GPT-4 的能力远超之前的任何模型。

多语言能力

GPT-4 的表现优于之前的大型语言模型，并且截至 2023 年，优于大多数最先进的系统（这些系统通常具有针对基准的训练或手工工程）。在 MMLU 基准（一套涵盖 57 个科目的英语多项选择题）上，GPT-4 不仅在英语方面的表现远远优于现有模型，而且在其他语言方面也表现出色。

GPT-3.5 Turbo

GPT-3.5 Turbo 模型可以理解和生成自然语言或代码，并且已经使用聊天完成 API针对聊天进行了优化，但对于非聊天任务也同样适用。
请注意:标记黄色的3种模型都在2024年6月过期了。请注意。

模型	描述	上下文窗口	训练数据
GPT-3.5-Turbo-0125	新的更新的 GPT 3.5 Turbo 最新的 GPT-3.5 Turbo 模型在响应请求格式时具有更高的准确度，并修复了导致非英语语言函数调用出现文本编码问题的错误。最多返回 4,096 个输出标记。	16,385 个代币	截至 2021 年 9 月
GPT-3.5-Turbo	目前指向gpt-3.5-turbo-0125。	16,385 个代币	截至 2021 年 9 月
gpt-3.5-turbo-1106	GPT-3.5 Turbo 模型具有改进的指令跟踪、JSON 模式、可重现输出、并行函数调用等。最多返回 4,096 个输出标记。	16,385 个代币	截至 2021 年 9 月
gpt-3.5-turbo-Instruct	与 GPT-3 时代模型具有类似的功能。与旧版 Completions 端点兼容，但不与 Chat Completions 兼容。	4,096 个代币	截至 2021 年 9 月
gpt-3.5-turbo-16k	目前指向gpt-3.5-turbo-16k-0613。	16,385 个代币	截至 2021 年 9 月
GPT-3.5-turbo-0613	gpt-3.5-turbo自 2023 年 6 月 13 日起的快照。将于 2024 年 6 月 13 日弃用。	4,096 个代币	截至 2021 年 9 月
GPT-3.5-turbo-16K-0613	gpt-3.5-16k-turbo自 2023 年 6 月 13 日起的快照。将于 2024 年 6 月 13 日弃用。	16,385 个代币	截至 2021 年 9 月

DALL-E

DALL·E 是一个人工智能系统，可以根据自然语言描述创建逼真的图像和艺术作品。DALL·E 3 目前支持根据提示创建具有特定尺寸的新图像。DALL·E 2 还支持编辑现有图像或创建用户提供图像的变体。
DALL·E 3可通过我们的图片 API和DALL·E 2获得。您可以通过 ChatGPT Plus试用 DALL·E 3 。

模型	描述
dall-e-3	DALL·E 3 最新的 DALL·E 型号于 2023 年 11 月发布。
dall-e-2	上一个 DALL·E 模型于 2022 年 11 月发布。DALL·E 的第 2 次迭代比原始模型具有更逼真、更准确且分辨率高 4 倍的图像。

语音合成

TTS 是一种将文本转换为自然发音的口语文本的 AI 模型。我们提供两种不同的模型变体，tts-1针对实时文本转语音用例进行了优化，并针对质量进行了优化。这些模型可以与Audio API 中的 Speech 端点tts-1-hd一起使用。

模型	描述
tts-1	文本转语音 1 最新的文本转语音模型，速度进行了优化。
tts-1-hd	文本转语音 1 HD 最新的文本转语音模型，针对质量进行了优化。

Whisper

Whisper 是一种通用语音识别模型。它基于大量多样化音频数据集进行训练，也是一种多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。Whisper v2-large 模型目前可通过我们的 API 使用，模型whisper-1名称为。有关 Whisper 的更多技术细节，可以阅读论文。

Embedding

Embedding嵌入是文本的数字表示，可用于衡量两段文本之间的相关性。嵌入对于搜索、聚类、推荐、异常检测和分类任务非常有用。

模型	描述	输出维度
text-embedding-3-large	Embedding V3 large 最适用于英语和非英语任务的嵌入模型	3,072
text-embedding-3-small	Embedding V3 small 比第二代 ada 嵌入模型性能有所提升	1,536
text-embedding-ada-002	最强大的第二代嵌入模型，取代了 16 个第一代模型	1,536

Moderation审核模型旨在检查内容是否符合 OpenAI 的使用政策。这些模型提供分类功能，可查找以下类别的内容：仇恨、仇恨/威胁、自残、性、性/未成年人、暴力和暴力/图形。
审核模型接受任意大小的输入，并自动将其分解为 4,096 个标记的块。如果输入超过 32,768 个标记，则会使用截断，在极少数情况下，审核检查可能会忽略少量标记。
每次向审核端点发出请求的最终结果都会显示每个类别的最大值。例如，如果一个 4K 令牌块的类别得分为 0.9901，而另一个的得分为 0.1901，则结果将在 API 响应中显示 0.9901，因为它更高。

模型	描述	最大代币数
text-moderation-latest	目前指向text-moderation-007。	32,768
text-moderation-stable	目前指向text-moderation-007。	32,768
text-moderation-007	所有类别中最强大的审核模型。	32,768

GPTbase

GPT 基础模型可以理解和生成自然语言或代码，但未经过指令训练。这些模型旨在替代我们原来的 GPT-3 基础模型，并使用旧版 Completions API。大多数客户应该使用 GPT-3.5 或 GPT-4。

模型	描述	最大代币数	训练数据
babbage-002	GPT-3ada和babbage基础型号的替代品。	16,384 个代币	截至 2021 年 9 月
davinci-002	GPT-3curie和davinci基础型号的替代品。	16,384 个代币	截至 2021 年 9 月

在 RA或者SD中，模型主要分为4类

其中最主流的模型训练方式为 Dreambooth 和 LoRA（以及 LoRA 的变体 LyCORIS）。这里的Dreambooth我们现在也成为Checkpoint

就训练时间与实用度而言，平均打分为： Dreambooth > LoRA > HyperNetwork > Embedding。

Dreambooth 模型、Embeddings 模型、LoRA 模型较受欢迎，Hypernetworks 模型则有被淘汰的趋势。

模型类型	说明作用和范围	文件扩展名	文件尺寸	模型存放位置
CheckPoint	主模型。很大。不需要依赖其余模型即可独立工作	.ckpt , .safetensors	一半会很大>1G	modelsStable-diffusion
Textual Inversion	配合主模型，影响语言识别模块，在文本编码器中创建新的Embedding	.pt , .bin	<20K	modelsembedding
HyperNetwork	配合主模型，在U-Net的交叉注意模块前插入附属网络，影响注意层	.pt , .bin	<200M	modelshypernetworks
LoRA	配合主模型，调正交叉注意层的权重，形成插入的数据存储。	.pt , .safetensors	<200M	modelsLora