大型语言模型实用指南
一份精选的(仍在积极更新)LLM 实用指南资源列表。它们还构建了现代大型语言模型 (LLM) 的进化树,以追踪近年来语言模型的发展,并重点介绍了一些最著名的模型。
目录
- 大型语言模型实用指南
- 模特实用指南
- BERT 风格语言模型:编码器-解码器或仅编码器
- GPT 风格的语言模型:仅解码器
- 数据实用指南
- 预训练数据
- 微调数据
- 测试数据/用户数据
- NLP 任务实用指南
- 传统NLU任务
- 生成任务
- 知识密集型任务
- 可扩展的能力
- 具体任务
- 现实世界的“任务”
- 效率
- 可信度
- 基准指令调整
- 结盟
- 安全对齐(无害)
- 真实性校准(诚实)
- 提示实用指南(有用)
- 开源社区的协同努力
- 使用和提取(模型和数据)
- 模特实用指南
模特实用指南
BERT 风格语言模型:编码器-解码器或仅编码器
- BERT BERT:用于语言理解的深度双向 Transformer 预训练,2018 年,论文
- RoBERTa RoBERTa:一种稳健优化的 BERT 预训练方法,2019 年,论文
- DistilBERT DistilBERT,BERT 的精简版:更小、更快、更便宜、更轻,2019 年,论文
- ALBERT ALBERT:用于语言表征自监督学习的精简版 BERT,2019 年,论文
- UniLM统一语言模型预训练,用于自然语言理解和生成,2019 年论文
- ELECTRA ELECTRA:将预训练文本编码器用作鉴别器而非生成器,2020 年,论文
- T5 “使用统一的文本到文本转换器探索迁移学习的极限”。Colin Raffel 等人。JMLR 2019。论文
- GLM “GLM-130B:开放式双语预训练模型”。2022 年。论文
- AlexaTM “AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行小样本学习”。Saleh Soltan 等人。arXiv 2022。论文
- ST-MoE ST-MoE:设计稳定且可转移的稀疏专家模型。2022 年论文
GPT 风格的语言模型:仅解码器
- GPT通过生成式预训练提高语言理解能力。2018 年。论文
- GPT-2语言模型是无监督的多任务学习器。2018 年。论文
- GPT-3 “语言模型是小样本学习者”。NeurIPS 2020。论文
- OPT “OPT:开放预训练 Transformer 语言模型”。2022 年。论文
- PaLM “PaLM:使用路径扩展语言建模”。Aakanksha Chowdhery 等人。arXiv 2022。论文
- BLOOM “BLOOM:176B 参数开放获取多语言模型”。2022 年。论文
- MT-NLG “使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成语言模型”。2021 年。论文
- GLaM “GLaM:使用混合专家高效扩展语言模型”。ICML 2022。论文
- Gopher “扩展语言模型:Gopher 训练的方法、分析和见解”。2021 年。论文
- chinchilla “训练计算优化大型语言模型”。2022 年。论文
- LaMDA “LaMDA:对话应用的语言模型”。2021 年。论文
- LLaMA “LLaMA:开放高效的基础语言模型”。2023 年。论文
- GPT-4 《GPT-4技术报告》。2023年。论文
- BloombergGPT BloombergGPT:面向金融的大型语言模型,2023 年,论文
- GPT-NeoX-20B:“GPT-NeoX-20B:一种开源自回归语言模型”。2022 年。论文
- PaLM 2:“PaLM 2 技术报告”。2023 年。技术报告
- LLaMA 2:“Llama 2:开放基础和微调聊天模型”。2023 年。论文
- Claude 2:“模型卡和 Claude 模型评估”。2023.模型卡
数据实用指南
预训练数据
- RedPajama,2023年。回购
- The Pile:用于语言建模的 800GB 多样化文本数据集,Arxiv 2020。论文
- 预训练目标如何影响大型语言模型对语言属性的学习?,ACL 2022。论文
- 神经语言模型的缩放定律,2020 年。论文
- 以数据为中心的人工智能:一项调查,2023 年。论文
- GPT 的能力是如何获得的?语言模型的新兴能力溯源,2022 年。博客
微调数据
测试数据/用户数据
- 自然语言理解中大型语言模型的快捷学习:一项调查,Arxiv 2023。论文
- 关于 ChatGPT 的稳健性:对抗性和分布外视角Arxiv,2023 年。论文
- SuperGLUE:通用语言理解系统的更粘性基准Arxiv 2019。论文
NLP 任务实用指南
我们为用户的 NLP 应用构建了一个选择 LLM 或微调模型的决策流程~\protect\footnotemark。该决策流程可帮助用户评估其手头的下游 NLP 应用是否满足特定条件,并根据该评估确定 LLM 或微调模型是否是其应用的最合适选择。
传统NLU任务
生成任务
- GPT-3 时代的新闻摘要与评价Arxiv 2022论文
- chatgpt 是一款好用的翻译器吗?是的,使用 GPT-4 作为引擎Arxiv 2023论文
- 微软用于 WMT21 共享任务的多语言机器翻译系统、WMT2021论文
- ChatGPT 也能理解吗?chatgpt 与 fine-tuned bert 的比较研究,Arxiv 2023,论文
知识密集型任务
- 衡量大规模多任务语言理解能力,ICLR 2021论文
- 超越模仿游戏:量化和推断语言模型的能力,Arxiv 2022论文
- 逆向扩展奖,2022 年链接
- Atlas:使用检索增强语言模型进行小样本学习,Arxiv 2022论文
- 大型语言模型编码临床知识,Arxiv 2022论文
可扩展的能力
- 训练计算优化的大型语言模型,NeurIPS 2022论文
- 神经语言模型的缩放定律,Arxiv 2020论文
- 使用基于过程和结果的反馈解决数学应用题,Arxiv 2022论文
- 思维链提示在大型语言模型中引发推理,NeurIPS 2022论文
- 大型语言模型的新兴能力,TMLR 2022论文
- 逆向缩放可以变成 U 形,Arxiv 2022论文
- 面向大型语言模型的推理:一项调查,Arxiv 2022论文
具体任务
- 图像作为外语:针对所有视觉和视觉语言任务的 BEiT 预训练,Arixv 2022论文
- PaLI:一种联合缩放的多语言语言图像模型,Arxiv 2022论文
- AugGPT:利用 ChatGPT 进行文本数据增强,Arxiv 2023论文
- GPT-3 是一个好的数据注释器吗?,Arxiv 2022论文
- 想降低标签成本?GPT-3 可以提供帮助,EMNLP 发现 2021论文
- GPT3Mix:利用大规模语言模型进行文本增强,EMNLP 发现 2021论文
- 患者试验匹配法学硕士:隐私感知数据增强,以实现更好的性能和通用性,Arxiv 2023论文
- ChatGPT 在文本注释任务上的表现优于众包工作者,Arxiv 2023论文
- G-Eval:使用 GPT-4 进行 NLG 评估,具有更好的人体对齐效果,Arxiv 2023论文
- GPTScore:按您的意愿评估,Arxiv 2023论文
- 大型语言模型是最先进的翻译质量评估工具,Arxiv 2023论文
- ChatGPT 是一个好的 NLG 评估器吗?一项初步研究,Arxiv 2023论文
现实世界的“任务”
- 通用人工智能的火花:GPT-4 的早期实验,Arxiv 2023论文
效率
- 成本
- Openai 的 GPT-3 语言模型:技术概述,2020 年。博客文章
- 测量云实例中人工智能的碳强度,FaccT 2022。论文
- 在人工智能领域,规模越大就越好吗?《自然》文章 2023。文章
- 语言模型是小样本学习器,NeurIPS 2020。论文
- 定价,OpenAI。博客文章
- 延迟
- HELM:语言模型的整体评估,Arxiv 2022。论文
- 参数高效微调
- LoRA:大型语言模型的低秩自适应,Arxiv 2021。论文
- 前缀调整:优化连续提示以进行生成,ACL 2021。论文
- P-Tuning:快速调整可与跨尺度和任务的微调相媲美,ACL 2022。论文
- P-Tuning v2:即时调整可与跨尺度和任务的通用微调相媲美,Arxiv 2022。论文
- 预训练系统
- ZeRO:针对训练万亿参数模型的内存优化,Arxiv 2019。论文
- Megatron-LM:使用模型并行训练数十亿参数语言模型,Arxiv 2019。论文
- 使用 Megatron-LM 在 GPU 集群上进行高效的大规模语言模型训练,Arxiv 2021。论文
- 减少大型 Transformer 模型中的激活重新计算,Arxiv 2021。论文
可信度
- 稳健性和校准
- 虚假偏见
- 大型语言模型可能是懒惰的学习者:分析上下文学习中的捷径,ACL 2023论文的发现
- 自然语言理解中大型语言模型的快捷学习:一项调查,2023 年论文
- 减轻字幕系统中的性别偏见,WWW 2020论文
- 使用前校准:提高语言模型的少样本性能,ICML 2021论文
- 深度神经网络中的捷径学习,《自然机器智能》2020论文
- 基于提示的模型真的理解其提示的含义吗?,NAACL 2022论文
- 安全问题
- GPT-4 系统卡片、2023 年论文
- 检测 llm 生成文本的科学,Arxiv 2023论文
- 刻板印象如何通过语言传播:社会类别和刻板印象传播 (scsc) 框架的回顾与介绍,传播研究评论,2019 年论文
- 性别差异:商业性别分类中的交叉准确度差异,FaccT 2018论文
基准指令调整
- FLAN:微调语言模型是零样本学习器,Arxiv 2021论文
- T0:多任务提示训练实现零样本任务泛化,Arxiv 2021论文
- 通过自然语言众包指令实现跨任务泛化,ACL 2022论文
- Tk-INSTRUCT:超自然指令:通过声明性指令对 1600 多个 NLP 任务进行泛化,EMNLP 2022论文
- FLAN-T5/PaLM:扩展指令微调语言模型,Arxiv 2022论文
- Flan Collection:设计数据和方法以实现有效的指令调整,Arxiv 2023论文
- OPT-IML:通过泛化视角扩展语言模型指令元学习,Arxiv 2023论文
结盟
- 根据人类偏好进行深度强化学习,NIPS 2017论文
- 学习从人类反馈中总结,Arxiv 2020论文
- 通用语言助理作为对齐实验室,Arxiv 2021论文
- 通过人类反馈的强化学习来训练一个有用且无害的助手,Arxiv 2022论文
- 教授语言模型以支持带有经过验证的引文的答案,Arxiv 2022论文
- InstructGPT:训练语言模型遵循人类反馈的指令,Arxiv 2022论文
- 通过有针对性的人类判断改善对话代理的协调性,Arxiv 2022论文
- 奖励模型过度优化的缩放定律,Arxiv 2022论文
- 可扩展监督:衡量大型语言模型可扩展监督的进展,Arxiv 2022论文
安全对齐(无害)
- 红队语言模型与语言模型,Arxiv 2022论文
- 宪法人工智能:人工智能反馈的无害性,Arxiv 2022论文
- 大型语言模型中的道德自我纠正能力,Arxiv 2023论文
- OpenAI:我们的 AI 安全方法,2023 年博客
真实性校准(诚实)
- 语言模型的强化学习,2023 年博客
提示实用指南(有用)
开源社区的协同努力
- 自我指导:将语言模型与自我生成的指令对齐,Arxiv 2022论文
- 羊驼.回购
- 小羊驼
- 多莉.博客
- DeepSpeed-Chat .博客
- GPT4All .仓库
- OpenAssitant . Repo
- ChatGLM . Repo
- MOSS回购
- Lamini .回购/博客
使用和限制
LLMs | Model | Data | |||
---|---|---|---|---|---|
License | Commercial Use | Other noteable restrictions | License | Corpus | |
Encoder-only | |||||
BERT series of models (general domain) | Apache 2.0 | ✅ | Public | BooksCorpus, English Wikipedia | |
RoBERTa | MIT license | ✅ | Public | BookCorpus, CC-News, OpenWebText, STORIES | |
ERNIE | Apache 2.0 | ✅ | Public | English Wikipedia | |
SciBERT | Apache 2.0 | ✅ | Public | BERT corpus, 1.14M papers from Semantic Scholar | |
LegalBERT | CC BY-SA 4.0 | ❌ | Public (except data from the Case Law Access Project) | EU legislation, US court cases, etc. | |
BioBERT | Apache 2.0 | ✅ | PubMed | PubMed, PMC | |
Encoder-Decoder | |||||
T5 | Apache 2.0 | ✅ | Public | C4 | |
Flan-T5 | Apache 2.0 | ✅ | Public | C4, Mixture of tasks (Fig 2 in paper) | |
BART | Apache 2.0 | ✅ | Public | RoBERTa corpus | |
GLM | Apache 2.0 | ✅ | Public | BooksCorpus and English Wikipedia | |
ChatGLM | ChatGLM License | ❌ | No use for illegal purposes or military research, no harm the public interest of society | N/A | 1T tokens of Chinese and English corpus |
Decoder-only | |||||
GPT2 | Modified MIT License | ✅ | Use GPT-2 responsibly and clearly indicate your content was created using GPT-2. | Public | WebText |
GPT-Neo | MIT license | ✅ | Public | Pile | |
GPT-J | Apache 2.0 | ✅ | Public | Pile | |
—> Dolly | CC BY NC 4.0 | ❌ | CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI | Pile, Self-Instruct | |
—> GPT4ALL-J | Apache 2.0 | ✅ | Public | GPT4All-J dataset | |
Pythia | Apache 2.0 | ✅ | Public | Pile | |
—> Dolly v2 | MIT license | ✅ | Public | Pile, databricks-dolly-15k | |
OPT | OPT-175B LICENSE AGREEMENT | ❌ | No development relating to surveillance research and military, no harm the public interest of society | Public | RoBERTa corpus, the Pile, PushShift.io Reddit |
—> OPT-IML | OPT-175B LICENSE AGREEMENT | ❌ | same to OPT | Public | OPT corpus, Extended version of Super-NaturalInstructions |
YaLM | Apache 2.0 | ✅ | Unspecified | Pile, Teams collected Texts in Russian | |
BLOOM | The BigScience RAIL License | ✅ | No use of generating verifiably false information with the purpose of harming others; content without expressly disclaiming that the text is machine generated | Public | ROOTS corpus (Lauren¸con et al., 2022) |
—> BLOOMZ | The BigScience RAIL License | ✅ | same to BLOOM | Public | ROOTS corpus, xP3 |
Galactica | CC BY-NC 4.0 | ❌ | N/A | The Galactica Corpus | |
LLaMA | Non-commercial bespoke license | ❌ | No development relating to surveillance research and military, no harm the public interest of society | Public | CommonCrawl, C4, Github, Wikipedia, etc. |
—> Alpaca | CC BY NC 4.0 | ❌ | CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI | LLaMA corpus, Self-Instruct | |
—> Vicuna | CC BY NC 4.0 | ❌ | Subject to terms of Use of the data generated by OpenAI; Privacy Practices of ShareGPT | LLaMA corpus, 70K conversations from ShareGPT.com | |
—> GPT4ALL | GPL Licensed LLaMa | ❌ | Public | GPT4All dataset | |
OpenLLaMA | Apache 2.0 | ✅ | Public | RedPajama | |
CodeGeeX | The CodeGeeX License | ❌ | No use for illegal purposes or military research | Public | Pile, CodeParrot, etc. |
StarCoder | BigCode OpenRAIL-M v1 license | ✅ | No use of generating verifiably false information with the purpose of harming others; content without expressly disclaiming that the text is machine generated | Public | The Stack |
MPT-7B | Apache 2.0 | ✅ | Public | mC4 (english), The Stack, RedPajama, S2ORC | |
falcon | TII Falcon LLM License | ✅/❌ | Available under a license allowing commercial use | Public | RefinedWeb |
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/6256