1-3 Token 词元/关键字/提示词

稻草人 • 2024-05-03 7:38 下午 • 初级课程, 引导篇 • 阅读 694

前言：

上一章，我们简单的运行了RA软件，同时直接简单的使用了下最简单的文生图功能。

本章，我们开始逐步了解具体的细节内容。关键字/或者说提示词/ Token词元，基本上指向同一个内容。

Token这个单词有点技术性，我们可以理解为AI技术中的一个关键名词定义。针对它的使用完全影响到了最终的AI计算结果。所以非常有必要深度了解和学习下

知识点：

Token词元
提示词 / 关键字
准备使用插件

Token 词元

在机器学习领域、NLP领域、文生图等领域，机器读懂词汇和语句是通过 Token 来进行的。

尽管在许多领域中都有“Token”这个字符被使用，在不同领域被翻译成代币、象征、标志、表示、信物、标记等等意思。但是在人工智能 AIGC 领域，通常是指“词元”，它是语言类模型中用数字来表示单词的最小语义单位。

在提示词文本发送给神经网络之前，Tokenizer 将组合词、句子、段落、文章这类型的长文本分解为最小单位的 Token 词元，然后再通过 Embedding 的方式把 token 转化为向量表示的数据结构，最后输入给神经网络。

比如图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元，其中[CLS][SEP]为一句话的起始与结束符号，然后再通过 Embedding 的方式转化为向量。

（CLS：classification 告知系统这是句子级别的分类的开始、SEP：separator 告知系统结束本句或分割下一句）

一句话“This is a input text.” 首先被 Tokenizer 转化成最小词元，然后再通过 Embedding 的方式转化为向量

Token 是最小单位的“词元”，或者说单词的“片段”，就是不可再拆分的最小语义单位，比如 “waterfall”，会被拆成2个 token：water、fall。

另外，标点符号也会被分解为 token，因为标点符号也影响了对全文的语义理解。比如“I don‘t know.”可以分解为5个Token，他们是：“ I ”、“don”、“ ‘t” 、“know”、“.”。

在 RA/SD 中默认的提示词输入最大量为不超过75个，这里的75指的就是Token 数，而不是75个单词。

所以，经常会发生你输入的单词数字没有到达75个时，Token 就已经超过75个了。

因为标点符号、复合词等等都会被解读为 Token（当然，现在无需担心在界面的提示词输入框中输入超过75个 Token 的问题，因为它可以通过分段输入的方式来进行了，但是75个 token 这一个概念大家应该明白）。

为什么要用这些提示词呢？

因为这些作为关键字，或者参考量，给到大模型去理解你要的是什么内容，才能生成更精确的AI内容给到你。因此在后续的所有课程中，你都会遇到关键字，提示词这些名字。

一大堆提示词，或一句话最终都被拆解为哪些 token 呢？

大家可以通过 AUTOMATIC1111 提供的 RA/SD 扩展插件 tokenizer 来查看，建议安装。（https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer），

这个扩展插件可以直接在 Extensions 标签下搜索安装。

RA/SD下的插件体系可以认为大幅提升了AIGC的能力，几乎是几百倍的提升。

那么如何安装插件呢？我们在下一课中教大家。

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/49

1-3 Token 词元/关键字/提示词

前言：

知识点：

Token 词元

为什么要用这些提示词呢？

关于作者

稻草人

发表回复

1-3 Token 词元/关键字/提示词

前言：

知识点：

Token 词元

为什么要用这些提示词呢？

关于作者

稻草人

相关推荐

RAG2.0来了

AIGC 设计模式

GPT莲花宝典之AzureServices下使用GPT揭秘

GPT葵花宝典之账号使用和模型概论

3.1.1 大模型合并Checkpoint Merger

2-20 生成Game或者App图标的方法

发表回复