大型语言模型实用指南

一份精选的(仍在积极更新)LLM 实用指南资源列表。它们还构建了现代大型语言模型 (LLM) 的进化树,以追踪近年来语言模型的发展,并重点介绍了一些最著名的模型。





目录

  • 大型语言模型实用指南
    • 模特实用指南
      • BERT 风格语言模型:编码器-解码器或仅编码器
      • GPT 风格的语言模型:仅解码器
    • 数据实用指南
      • 预训练数据
      • 微调数据
      • 测试数据/用户数据
    • NLP 任务实用指南
      • 传统NLU任务
      • 生成任务
      • 知识密集型任务
      • 可扩展的能力
      • 具体任务
      • 现实世界的“任务”
      • 效率
      • 可信度
      • 基准指令调整
      • 结盟
        • 安全对齐(无害)
        • 真实性校准(诚实)
        • 提示实用指南(有用)
        • 开源社区的协同努力
    • 使用和提取(模型和数据)

模特实用指南

BERT 风格语言模型:编码器-解码器或仅编码器

  • BERT BERT:用于语言理解的深度双向 Transformer 预训练,2018 年,论文
  • RoBERTa RoBERTa:一种稳健优化的 BERT 预训练方法,2019 年,论文
  • DistilBERT DistilBERT,BERT 的精简版:更小、更快、更便宜、更轻,2019 年,论文
  • ALBERT ALBERT:用于语言表征自监督学习的精简版 BERT,2019 年,论文
  • UniLM统一语言模型预训练,用于自然语言理解和生成,2019 年论文
  • ELECTRA ELECTRA:将预训练文本编码器用作鉴别器而非生成器,2020 年,论文
  • T5 “使用统一的文本到文本转换器探索迁移学习的极限”。Colin Raffel 等人。JMLR 2019。论文
  • GLM “GLM-130B:开放式双语预训练模型”。2022 年。论文
  • AlexaTM “AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行小样本学习”。Saleh Soltan 等人。arXiv 2022。论文
  • ST-MoE ST-MoE:设计稳定且可转移的稀疏专家模型。2022 年论文

GPT 风格的语言模型:仅解码器

  • GPT通过生成式预训练提高语言理解能力。2018 年。论文
  • GPT-2语言模型是无监督的多任务学习器。2018 年。论文
  • GPT-3 “语言模型是小样本学习者”。NeurIPS 2020。论文
  • OPT “OPT:开放预训练 Transformer 语言模型”。2022 年。论文
  • PaLM “PaLM:使用路径扩展语言建模”。Aakanksha Chowdhery 等人。arXiv 2022。论文
  • BLOOM “BLOOM:176B 参数开放获取多语言模型”。2022 年。论文
  • MT-NLG “使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成语言模型”。2021 年。论文
  • GLaM “GLaM:使用混合专家高效扩展语言模型”。ICML 2022。论文
  • Gopher “扩展语言模型:Gopher 训练的方法、分析和见解”。2021 年。论文
  • chinchilla “训练计算优化大型语言模型”。2022 年。论文
  • LaMDA “LaMDA:对话应用的语言模型”。2021 年。论文
  • LLaMA “LLaMA:开放高效的基础语言模型”。2023 年。论文
  • GPT-4 《GPT-4技术报告》。2023年。论文
  • BloombergGPT BloombergGPT:面向金融的大型语言模型,2023 年,论文
  • GPT-NeoX-20B:“GPT-NeoX-20B:一种开源自回归语言模型”。2022 年。论文
  • PaLM 2:“PaLM 2 技术报告”。2023 年。技术报告
  • LLaMA 2:“Llama 2:开放基础和微调聊天模型”。2023 年。论文
  • Claude 2:“模型卡和 Claude 模型评估”。2023.模型卡

数据实用指南

预训练数据

  • RedPajama,2023年。回购
  • The Pile:用于语言建模的 800GB 多样化文本数据集,Arxiv 2020。论文
  • 预训练目标如何影响大型语言模型对语言属性的学习?,ACL 2022。论文
  • 神经语言模型的缩放定律,2020 年。论文
  • 以数据为中心的人工智能:一项调查,2023 年。论文
  • GPT 的能力是如何获得的?语言模型的新兴能力溯源,2022 年。博客

微调数据

  • 零样本文本分类基准测试:数据集、评估和蕴涵方法,EMNLP 2019。论文
  • 语言模型是小样本学习器,NIPS 2020。论文
  • LLM 的合成数据生成是否有助于临床文本挖掘? Arxiv 2023论文

测试数据/用户数据

  • 自然语言理解中大型语言模型的快捷学习:一项调查,Arxiv 2023。论文
  • 关于 ChatGPT 的稳健性:对抗性和分布外视角Arxiv,2023 年。论文
  • SuperGLUE:通用语言理解系统的更粘性基准Arxiv 2019。论文

NLP 任务实用指南

我们为用户的 NLP 应用构建了一个选择 LLM 或微调模型的决策流程~\protect\footnotemark。该决策流程可帮助用户评估其手头的下游 NLP 应用是否满足特定条件,并根据该评估确定 LLM 或微调模型是否是其应用的最合适选择。

传统NLU任务

  • 民事评论数据集上的恶意评论分类基准Arxiv 2023论文
  • chatgpt 是通用的自然语言处理任务解决器吗? Arxiv 2023论文
  • 对新闻摘要的大型语言模型进行基准测试Arxiv 2022论文

生成任务

  • GPT-3 时代的新闻摘要与评价Arxiv 2022论文
  • chatgpt 是一款好用的翻译器吗?是的,使用 GPT-4 作为引擎Arxiv 2023论文
  • 微软用于 WMT21 共享任务的多语言机器翻译系统、WMT2021论文
  • ChatGPT 也能理解吗?chatgpt 与 fine-tuned bert 的比较研究,Arxiv 2023,论文

知识密集型任务

  • 衡量大规模多任务语言理解能力,ICLR 2021论文
  • 超越模仿游戏:量化和推断语言模型的能力,Arxiv 2022论文
  • 逆向扩展奖,2022 年链接
  • Atlas:使用检索增强语言模型进行小样本学习,Arxiv 2022论文
  • 大型语言模型编码临床知识,Arxiv 2022论文

可扩展的能力

  • 训练计算优化的大型语言模型,NeurIPS 2022论文
  • 神经语言模型的缩放定律,Arxiv 2020论文
  • 使用基于过程和结果的反馈解决数学应用题,Arxiv 2022论文
  • 思维链提示在大型语言模型中引发推理,NeurIPS 2022论文
  • 大型语言模型的新兴能力,TMLR 2022论文
  • 逆向缩放可以变成 U 形,Arxiv 2022论文
  • 面向大型语言模型的推理:一项调查,Arxiv 2022论文

具体任务

  • 图像作为外语:针对所有视觉和视觉语言任务的 BEiT 预训练,Arixv 2022论文
  • PaLI:一种联合缩放的多语言语言图像模型,Arxiv 2022论文
  • AugGPT:利用 ChatGPT 进行文本数据增强,Arxiv 2023论文
  • GPT-3 是一个好的数据注释器吗?,Arxiv 2022论文
  • 想降低标签成本?GPT-3 可以提供帮助,EMNLP 发现 2021论文
  • GPT3Mix:利用大规模语言模型进行文本增强,EMNLP 发现 2021论文
  • 患者试验匹配法学硕士:隐私感知数据增强,以实现更好的性能和通用性,Arxiv 2023论文
  • ChatGPT 在文本注释任务上的表现优于众包工作者,Arxiv 2023论文
  • G-Eval:使用 GPT-4 进行 NLG 评估,具有更好的人体对齐效果,Arxiv 2023论文
  • GPTScore:按您的意愿评估,Arxiv 2023论文
  • 大型语言模型是最先进的翻译质量评估工具,Arxiv 2023论文
  • ChatGPT 是一个好的 NLG 评估器吗?一项初步研究,Arxiv 2023论文

现实世界的“任务”

  • 通用人工智能的火花:GPT-4 的早期实验,Arxiv 2023论文

效率

  1. 成本
  • Openai 的 GPT-3 语言模型:技术概述,2020 年。博客文章
  • 测量云实例中人工智能的碳强度,FaccT 2022。论文
  • 在人工智能领域,规模越大就越好吗?《自然》文章 2023。文章
  • 语言模型是小样本学习器,NeurIPS 2020。论文
  • 定价,OpenAI。博客文章
  1. 延迟
  • HELM:语言模型的整体评估,Arxiv 2022。论文
  1. 参数高效微调
  • LoRA:大型语言模型的低秩自适应,Arxiv 2021。论文
  • 前缀调整:优化连续提示以进行生成,ACL 2021。论文
  • P-Tuning:快速调整可与跨尺度和任务的微调相媲美,ACL 2022。论文
  • P-Tuning v2:即时调整可与跨尺度和任务的通用微调相媲美,Arxiv 2022。论文
  1. 预训练系统
  • ZeRO:针对训练万亿参数模型的内存优化,Arxiv 2019。论文
  • Megatron-LM:使用模型并行训练数十亿参数语言模型,Arxiv 2019。论文
  • 使用 Megatron-LM 在 GPU 集群上进行高效的大规模语言模型训练,Arxiv 2021。论文
  • 减少大型 Transformer 模型中的激活重新计算,Arxiv 2021。论文

可信度

  1. 稳健性和校准
  • 使用前校准:提高语言模型的少样本性能,ICML 2021。论文
  • SPeC:基于软提示的校准方法,用于减轻临床笔记摘要中的性能差异,Arxiv 2023。论文
  1. 虚假偏见
  • 大型语言模型可能是懒惰的学习者:分析上下文学习中的捷径,ACL 2023论文的发现
  • 自然语言理解中大型语言模型的快捷学习:一项调查,2023 年论文
  • 减轻字幕系统中的性别偏见,WWW 2020论文
  • 使用前校准:提高语言模型的少样本性能,ICML 2021论文
  • 深度神经网络中的捷径学习,《自然机器智能》2020论文
  • 基于提示的模型真的理解其提示的含义吗?,NAACL 2022论文
  1. 安全问题
  • GPT-4 系统卡片、2023 年论文
  • 检测 llm 生成文本的科学,Arxiv 2023论文
  • 刻板印象如何通过语言传播:社会类别和刻板印象传播 (scsc) 框架的回顾与介绍,传播研究评论,2019 年论文
  • 性别差异:商业性别分类中的交叉准确度差异,FaccT 2018论文

基准指令调整

  • FLAN:微调语言模型是零样本学习器,Arxiv 2021论文
  • T0:多任务提示训练实现零样本任务泛化,Arxiv 2021论文
  • 通过自然语言众包指令实现跨任务泛化,ACL 2022论文
  • Tk-INSTRUCT:超自然指令:通过声明性指令对 1600 多个 NLP 任务进行泛化,EMNLP 2022论文
  • FLAN-T5/PaLM:扩展指令微调语言模型,Arxiv 2022论文
  • Flan Collection:设计数据和方法以实现有效的指令调整,Arxiv 2023论文
  • OPT-IML:通过泛化视角扩展语言模型指令元学习,Arxiv 2023论文

结盟

  • 根据人类偏好进行深度强化学习,NIPS 2017论文
  • 学习从人类反馈中总结,Arxiv 2020论文
  • 通用语言助理作为对齐实验室,Arxiv 2021论文
  • 通过人类反馈的强化学习来训练一个有用且无害的助手,Arxiv 2022论文
  • 教授语言模型以支持带有经过验证的引文的答案,Arxiv 2022论文
  • InstructGPT:训练语言模型遵循人类反馈的指令,Arxiv 2022论文
  • 通过有针对性的人类判断改善对话代理的协调性,Arxiv 2022论文
  • 奖励模型过度优化的缩放定律,Arxiv 2022论文
  • 可扩展监督:衡量大型语言模型可扩展监督的进展,Arxiv 2022论文

安全对齐(无害)

  • 红队语言模型与语言模型,Arxiv 2022论文
  • 宪法人工智能:人工智能反馈的无害性,Arxiv 2022论文
  • 大型语言模型中的道德自我纠正能力,Arxiv 2023论文
  • OpenAI:我们的 AI 安全方法,2023 年博客

真实性校准(诚实)

  • 语言模型的强化学习,2023 年博客

提示实用指南(有用)

  • OpenAI Cookbook博客
  • 及时工程博客
  • ChatGPT 为开发人员提供快速工程! 课程

开源社区的协同努力

使用和限制

LLM 的使用限制(例如用于商业和研究目的)

LLMsModelData
LicenseCommercial UseOther noteable restrictionsLicenseCorpus
Encoder-only
BERT series of models (general domain)Apache 2.0PublicBooksCorpus, English Wikipedia
RoBERTaMIT licensePublicBookCorpus, CC-News, OpenWebText, STORIES
ERNIEApache 2.0PublicEnglish Wikipedia
SciBERTApache 2.0PublicBERT corpus, 1.14M papers from Semantic Scholar
LegalBERTCC BY-SA 4.0Public (except data from the Case Law Access Project)EU legislation, US court cases, etc.
BioBERTApache 2.0PubMedPubMed, PMC
Encoder-Decoder
T5Apache 2.0PublicC4
Flan-T5Apache 2.0PublicC4, Mixture of tasks (Fig 2 in paper)
BARTApache 2.0PublicRoBERTa corpus
GLMApache 2.0PublicBooksCorpus and English Wikipedia
ChatGLMChatGLM LicenseNo use for illegal purposes or military research, no harm the public interest of societyN/A1T tokens of Chinese and English corpus
Decoder-only
GPT2Modified MIT LicenseUse GPT-2 responsibly and clearly indicate your content was created using GPT-2.PublicWebText
GPT-NeoMIT licensePublicPile
GPT-JApache 2.0PublicPile
—> DollyCC BY NC 4.0CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAIPile, Self-Instruct
—> GPT4ALL-JApache 2.0PublicGPT4All-J dataset
PythiaApache 2.0PublicPile
—> Dolly v2MIT licensePublicPile, databricks-dolly-15k
OPTOPT-175B LICENSE AGREEMENTNo development relating to surveillance research and military, no harm the public interest of societyPublicRoBERTa corpus, the Pile, PushShift.io Reddit
—> OPT-IMLOPT-175B LICENSE AGREEMENTsame to OPTPublicOPT corpus, Extended version of Super-NaturalInstructions
YaLMApache 2.0UnspecifiedPile, Teams collected Texts in Russian
BLOOMThe BigScience RAIL LicenseNo use of generating verifiably false information with the purpose of harming others;
content without expressly disclaiming that the text is machine generated
PublicROOTS corpus (Lauren¸con et al., 2022)
—> BLOOMZThe BigScience RAIL Licensesame to BLOOMPublicROOTS corpus, xP3
GalacticaCC BY-NC 4.0N/AThe Galactica Corpus
LLaMANon-commercial bespoke licenseNo development relating to surveillance research and military, no harm the public interest of societyPublicCommonCrawl, C4, Github, Wikipedia, etc.
—> AlpacaCC BY NC 4.0CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAILLaMA corpus, Self-Instruct
—> VicunaCC BY NC 4.0Subject to terms of Use of the data generated by OpenAI;
Privacy Practices of ShareGPT
LLaMA corpus, 70K conversations from ShareGPT.com
—> GPT4ALLGPL Licensed LLaMaPublicGPT4All dataset
OpenLLaMAApache 2.0PublicRedPajama
CodeGeeXThe CodeGeeX LicenseNo use for illegal purposes or military researchPublicPile, CodeParrot, etc.
StarCoderBigCode OpenRAIL-M v1 licenseNo use of generating verifiably false information with the purpose of harming others;
content without expressly disclaiming that the text is machine generated
PublicThe Stack
MPT-7BApache 2.0PublicmC4 (english)The StackRedPajamaS2ORC
falconTII Falcon LLM License✅/❌Available under a license allowing commercial usePublicRefinedWeb

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/6256

Like (0)
Previous 2024-09-23 3:12 下午
Next 2024-09-25

相关推荐

发表回复

Please Login to Comment
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn